数据分析常用的知识点—离散型概率分布和连续型概率分布

51zlzl
51zlzl 这家伙很懒,还没有设置简介

0 人点赞了该文章 · 4920 浏览

概率中通常将试验的结果称为随机变量。随机变量将每一个可能出现的试验结果赋予了一个数值,包含离散型随机变量和连续型随机变量。

既然随机变量可以取不同的值,统计学家就用概率分布描述随机变量取不同值的概率。相对应的,有离散型概率分布和连续型概率分布。

  数学期望和方差

数学期望是对随机变量中心位置的一种度量。是试验中每次可能结果乘以其结果的概率的总和。简单说,它是概率中的平均值。

d4bdddf55ff8a84b02f8797d593c3cc1.jpg

方差随机变量的变异性或者是分散程度的度量。

ed38e968ea01519e0ba988661913d36e.jpg

其中的u就是E(x).

  离散型概率分布

二项概率分布

二项分布是一种离散型的概率分布。故明思义,二项代表它有两种可能的结果,把一种称为成功,另外一种称为失败。

除了结果的规定,它还需要满足其他性质:每次试验成功的概率均是相同的,记录为p;失败的概率也相同,为1-p。每次试验必须相互独立,该试验也叫做伯努利试验,重复n次即二项概率。掷硬币就是一个典型的二项分布。当我们要计算抛硬币n次,恰巧有x次正面朝上的概率,可以使用二项分布的公式:

1195f6954de141f742fb42bac9cfec50.jpg

且二项概率的数学期望为E(x) = np,方差Var(x) = np(1-p)。

泊松概率分布

泊松概率是另外一个常用的离散型随机变量,它主要用于估计某事件在特定时间或空间中发生的次数。比如一天内中奖的个数,一个月内某机器损坏的次数等。

泊松概率的成立条件是在任意两个长度相等的区间中,时间发生的概率是相同的,并且事件是否发生都是相互独立的。

泊松概率既然表示事件在一个区间发生的次数,这里的次数就不会有上限,x取值可以无限大,只是可能性无限接近0,f(x)的最终值很小。

x代表发生x次,u代表发生次数的数学期望,概率函数为:

b8801894ce86c8ca32b18d19e7c78739.jpg

其中泊松概率分布的数学期望和方差是相等的。

  连续型概率分布

上述分布都是离散概率分布,当随机变量是连续型时,情况就完全不一样了。因为离散概率的本质是求x取某个特定值的概率,而连续随机变量不行,它的取值是可以无限分割的,它取某个值时概率近似于0。连续变量是随机变量在某个区间内取值的概率,此时的概率函数叫做概率密度函数。

均匀概率分布

随机变量x在任意两个子区间的概率是相同的。

均匀概率密度函数

83e461083c01a44e21ff87b0ff512200.jpg

数学期望

3fffe1b553d7fa0159fce46f4d0e0195.jpg

 方差

7393bae06703c20cb8755f44259d9a8f.jpg

正态概率分布

正态概率分布是连续型随机变量中最重要的分布。世界上绝大部分的分布都属于正态分布,人的身高体重、考试成绩、降雨量等都近似服从。

正态分布如同一条钟形曲线。中间高,两边低,左右对称。想象身高体重、考试成绩,是否都呈现这一类分布态势:大部分数据集中在某处,小部分往两端倾斜。

22a291a0c521b6dc57fce595085e5416.jpg

正态概率密度函数为:

3e4349e52197dbd7aa0ca49ec5ea5f44.jpg

u代表均值,σ代表标准差,两者不同的取值将会造成不同形状的正态分布。均值表示正态分布的左右偏移,标准差决定曲线的宽度和平坦,标准差越大曲线越平坦。

一个正态分布的经验法则:

正态随机变量有69.3%的值在均值加减一个标准差的范围内,95.4%的值在两个标准差内,99.7%的值在三个标准差内。

a7bf8dc50bee40585c5139086d1fb82f.jpg

均值u=0,标准差σ=1的正态分布叫做标准正态分布。它的随机变量用z表示,将均值和标准差代入正态概率密度函数,得到一个简化的公式:

446840e162fb32d2e35eeb6873680a47.jpg

为了计算概率需要学习一个新的函数叫累计分布函数,它是概率密度函数的积分。用P(X<=x)表示随机变量小于或者等于某个数值的概率,F(x) = P(X<=x)。

ada496f4c420d766f487eb411511a27b.jpg

曲线f(x)就是概率密度函数,曲线与X轴相交的阴影面积就是累计分布函数。

标准正态分布的分布函数

e2cb74756a18e4e630f652b8caff9b9d.jpg

图像如下:

36158f339bf8b9fd3dd378f92d3c7888.jpg?6538

计算三种类型的概率(这里需要说明一点,只有标准正态分布时,随机变量才用z表示)

1. z小于或者等于某个给定值的概率,直接带入分布函数得出

如:p(z<=1)=φ(1)=0.8413   (1值左边标准正态曲线下的面积)

2. z在给定的两个值之间的概率

如:P(-1<=z<=1.25) = P(z<=1.25) – P(z<=-1) =φ(1.25)-φ(1) =0.735

3. z大于或者等于某个给定值的概率

如:P(z>1) = 1-P(z<=1) =1-φ(1)= 0.1586

标准正态分布与一般的正态分布的关系:

任何一个一般的正态分布都可以通过线性变换转化为标准正态分布。它依据的定理如下:

b78ca036f73834bbec43189c9ec0a8e7.jpg

下面做一道题目练习吧!

现在有一个u=10和σ=2的正态随机变量,求x在10与14之间的概率是多少?

当x=10时,z=(10-10)/2=2。当x=14时,z=(14-10)/2=2。于是x在10和14之间的概率等价于标准正态分布中0和2之间的概率。计算P(0<=z<=2) =P(z<=2) – P(z<=0) =0.4772。

指数概率分布

指数概率密度函数

7a2f9f83f94e80cca8fc74ef50fee4bf.jpg

其中,x>=0,u为均值,e=2.71828;

计算概率

指数随机变量取小于或者等于某一特定值X0的概率

3972ab8e6e82002c839a2fc6cfca84dc.jpg

且指数概率分布的期望=标准差

指数分布vs泊松分布

泊松分布:1.是离散型概率分布 2.描述每一区间中事件发生的次数

指数分布:1.是连续型概率分布 2.描述事件发生的时间间隔的长度

为了说明问题,简单举两个小例子

a.20分钟内购买肯德基早餐的人数的均值是10人,那么如果求每20分钟有x人购买的概率,就应该用泊松概率函数

1c98eec9f1ab93ecd9681a6c183c0fd3.jpg

b.20分钟内购买肯德基早餐的人数的均值是10人,那么如果求每20分钟这一区间内,两位顾客购买的时间间隔为小于x0的概率,就应该用指数概率函数。

购买的间隔均值为u=10/20=0.5

把u带入下面的公式

02509a4021b4f87ed78d64c7b6fdfab0.jpg

发布于 2021-10-15 08:38

免责声明:

本文由 51zlzl 原创发布于 质量人 ,著作权归作者所有。

登录一下,更多精彩内容等你发现,贡献精彩回答,参与评论互动

登录! 还没有账号?去注册

暂无评论