数据分析常用的知识点—离散型概率分布和连续型概率分布

: 51zlzl 这家伙很懒，还没有设置简介

0 人点赞了该文章 · 4920 浏览

概率中通常将试验的结果称为随机变量。随机变量将每一个可能出现的试验结果赋予了一个数值，包含离散型随机变量和连续型随机变量。

既然随机变量可以取不同的值，统计学家就用概率分布描述随机变量取不同值的概率。相对应的，有离散型概率分布和连续型概率分布。

数学期望和方差

数学期望是对随机变量中心位置的一种度量。是试验中每次可能结果乘以其结果的概率的总和。简单说，它是概率中的平均值。

方差随机变量的变异性或者是分散程度的度量。

其中的u就是E(x).

离散型概率分布

二项概率分布

二项分布是一种离散型的概率分布。故明思义，二项代表它有两种可能的结果，把一种称为成功，另外一种称为失败。

除了结果的规定，它还需要满足其他性质：每次试验成功的概率均是相同的，记录为p；失败的概率也相同，为1-p。每次试验必须相互独立，该试验也叫做伯努利试验，重复n次即二项概率。掷硬币就是一个典型的二项分布。当我们要计算抛硬币n次，恰巧有x次正面朝上的概率，可以使用二项分布的公式：

且二项概率的数学期望为E(x) = np，方差Var(x) = np(1-p)。

泊松概率分布

泊松概率是另外一个常用的离散型随机变量，它主要用于估计某事件在特定时间或空间中发生的次数。比如一天内中奖的个数，一个月内某机器损坏的次数等。

泊松概率的成立条件是在任意两个长度相等的区间中，时间发生的概率是相同的，并且事件是否发生都是相互独立的。

泊松概率既然表示事件在一个区间发生的次数，这里的次数就不会有上限，x取值可以无限大，只是可能性无限接近0，f(x)的最终值很小。

x代表发生x次，u代表发生次数的数学期望，概率函数为：

其中泊松概率分布的数学期望和方差是相等的。

连续型概率分布

上述分布都是离散概率分布，当随机变量是连续型时，情况就完全不一样了。因为离散概率的本质是求x取某个特定值的概率，而连续随机变量不行，它的取值是可以无限分割的，它取某个值时概率近似于0。连续变量是随机变量在某个区间内取值的概率，此时的概率函数叫做概率密度函数。

均匀概率分布

随机变量x在任意两个子区间的概率是相同的。

均匀概率密度函数

数学期望

方差

正态概率分布

正态概率分布是连续型随机变量中最重要的分布。世界上绝大部分的分布都属于正态分布，人的身高体重、考试成绩、降雨量等都近似服从。

正态分布如同一条钟形曲线。中间高，两边低，左右对称。想象身高体重、考试成绩，是否都呈现这一类分布态势：大部分数据集中在某处，小部分往两端倾斜。

正态概率密度函数为：

u代表均值，σ代表标准差，两者不同的取值将会造成不同形状的正态分布。均值表示正态分布的左右偏移，标准差决定曲线的宽度和平坦，标准差越大曲线越平坦。

一个正态分布的经验法则：

正态随机变量有69.3%的值在均值加减一个标准差的范围内，95.4%的值在两个标准差内，99.7%的值在三个标准差内。

均值u=0，标准差σ=1的正态分布叫做标准正态分布。它的随机变量用z表示，将均值和标准差代入正态概率密度函数，得到一个简化的公式：

为了计算概率需要学习一个新的函数叫累计分布函数，它是概率密度函数的积分。用P(X<=x)表示随机变量小于或者等于某个数值的概率，F(x) = P(X<=x)。

曲线f(x)就是概率密度函数,曲线与X轴相交的阴影面积就是累计分布函数。

标准正态分布的分布函数

图像如下：

36158f339bf8b9fd3dd378f92d3c7888.jpg?6538

计算三种类型的概率(这里需要说明一点，只有标准正态分布时，随机变量才用z表示)

1. z小于或者等于某个给定值的概率,直接带入分布函数得出

如：p(z<=1)=φ(1)=0.8413 (1值左边标准正态曲线下的面积)

2. z在给定的两个值之间的概率

如：P(-1<=z<=1.25) = P(z<=1.25) – P(z<=-1) =φ(1.25)-φ(1) =0.735

3. z大于或者等于某个给定值的概率

如：P(z>1) = 1-P(z<=1) =1-φ(1)= 0.1586

标准正态分布与一般的正态分布的关系:

任何一个一般的正态分布都可以通过线性变换转化为标准正态分布。它依据的定理如下：

下面做一道题目练习吧！

现在有一个u=10和σ=2的正态随机变量，求x在10与14之间的概率是多少？

当x=10时，z=(10-10)/2=2。当x=14时，z=(14-10)/2=2。于是x在10和14之间的概率等价于标准正态分布中0和2之间的概率。计算P(0<=z<=2) =P(z<=2) – P(z<=0) =0.4772。

指数概率分布

指数概率密度函数

其中，x>=0，u为均值，e=2.71828;

计算概率

指数随机变量取小于或者等于某一特定值X0的概率

且指数概率分布的期望=标准差

指数分布vs泊松分布

泊松分布：1.是离散型概率分布 2.描述每一区间中事件发生的次数

指数分布：1.是连续型概率分布 2.描述事件发生的时间间隔的长度

为了说明问题，简单举两个小例子

ａ．20分钟内购买肯德基早餐的人数的均值是10人，那么如果求每20分钟有x人购买的概率，就应该用泊松概率函数

ｂ．２0分钟内购买肯德基早餐的人数的均值是10人，那么如果求每20分钟这一区间内，两位顾客购买的时间间隔为小于x0的概率，就应该用指数概率函数。

购买的间隔均值为u=10/20=0.5

把u带入下面的公式

数据分析常用的知识点—离散型概率分布和连续型概率分布

51zlzl 这家伙很懒，还没有设置简介

免责声明:

相关文章

推荐内容