191.2.随机变量与分布函数概率的,随机变量的可测性要求就是要求随机变量所代表的信息属于可知的信息集合学中。随机变量的定义依赖α代数的选取,如果X是(2,)上的随机变量,而(2)也是可测空间,X不一定是(2,9)上的随机变量。随机变量定义不依赖于概率测度的选取。随机变量X的分布函数F(r)依赖于概率测度,设概率空间(2.,P)中随机变量X的分布函数为F(r),(2,,Q)也是概率空间,则X在(2,字Q)中的分布函数不一定等于F()。对于同一个分布函数F(r),在同一个概率空间中可以有不同的随机变量X,Y都以F(α)为分布函数,也可以有在不同的概率空间中的随机变量X,Y,使其在自身定义的概率空间中分别以F(r)为分布函数。如果存在非负函数f(),满足F(r) =f(t)dt,则称f(r)为随机变量X或其分布函数F()的分布密度.如果X具有分布密度,则称X为连续型随机变量;如果存在有限或者可列集合A使得P(XEA)=1,则称X为离散型随机变量定义1.7.两个随机变量X与Y,如果满足P(wEQ:X(w)+Y(w))=0,则称它们是等价的对于两个等价的随机变量,我们视为同一个定理1.1.下列命题等价:(1)X是随机变量;(2) [w: X(w)≥r)EF, VrER;(3) (w: X(w)>r)Eg, VrER;(4) (w: X(w) <r) EF, VrER.证明略。注:习惯上将【w:X(w)≥)记为【X≥)
1.2. 随机变量与分布函数 19 概率的,随机变量的可测性要求就是要求随机变量所代表的信息属于可知的信 息集合 F 中。 随机变量的定义依赖 𝜎 代数 F 的选取,如果 𝑋 是 (Ω, F) 上的随机变量,而 (Ω, G ) 也是可测空间,𝑋 不一定是 (Ω, G ) 上的随机变量。随机变量定义不依 赖于概率测度的选取。 随机变量 𝑋 的分布函数 𝐹(𝑥) 依赖于概率测度,设概率空间 (Ω, F, 𝑃 ) 中随机 变量 𝑋 的分布函数为 𝐹(𝑥),(Ω, F, 𝑄) 也是概率空间,则 𝑋 在 (Ω, F, 𝑄) 中 的分布函数不一定等于 𝐹(𝑥)。 对于同一个分布函数 𝐹(𝑥),在同一个概率空间中可以有不同的随机变量 𝑋, 𝑌 都以 𝐹(𝑥) 为分布函数,也可以有在不同的概率空间中的随机变量 𝑋, 𝑌 ,使其 在自身定义的概率空间中分别以 𝐹(𝑥) 为分布函数。 如果存在非负函数 𝑓(𝑥), 满足 𝐹(𝑥) = ∫𝑥 −∞ 𝑓(𝑡) 𝑑𝑡, 则称 𝑓(𝑥) 为随机变量 𝑋 或其分布函数 𝐹(𝑥) 的分布密度. 如果 𝑋 具有 分布密度, 则称 𝑋 为连续型随机变量; 如果存在有限或者可列集合 𝐴 使得 𝑃 (𝑋 ∈ 𝐴) = 1,则称 𝑋 为离散型随机变量. 定义 1.7. 两个随机变量 𝑋 与 𝑌 , 如果满足 𝑃 (𝜔 ∈ Ω ∶ 𝑋(𝜔) ≠ 𝑌 (𝜔)) = 0, 则 称它们是等价的. 对于两个等价的随机变量,我们视为同一个. 定理 1.1. 下列命题等价: (1) 𝑋是随机变量; (2) {𝜔 ∶ 𝑋(𝜔) ≥ 𝑥} ∈ F, ∀𝑥 ∈ ℝ; (3) {𝜔 ∶ 𝑋(𝜔) > 𝑥} ∈ F, ∀𝑥 ∈ ℝ; (4) {𝜔 ∶ 𝑋(𝜔) < 𝑥} ∈ F, ∀𝑥 ∈ ℝ. 证明略。 注:习惯上将 {𝜔 ∶ 𝑋(𝜔) ≥ 𝑥} 记为 {𝑋 ≥ 𝑥}
20CHAPTER1.预备知识例1.14.设事件AEF,令1,若wEA,IA(w) =[o,若w±A,则I(w)是随机变量,简记为IA或I[A],称为A的示性函数。证明:对<0, (IA≤)=0E;对0≤<1,[IA≤)=(IA=0)=AEF;对a≥1,(IA≤)=2EF.对随机变量X,令o(X) =o((X-1((-00,rl), rE R)) =o(((w: X(w) ≤r) : ER)),称为由X生成的α代数,可以理解为观测到X后所能获得的信息,即对VAEα(X),在观测到X的值后都可以确定A是否发生。o(X)的一个等价定义是o(X) = [X-I(B) : B E B(R),其中X-1(B)=(w:X(w)B)。2→R的函数X是随机变量,当且仅当(X)cg。设X是概率空间(2.,P)上的随机变量,9是的子α代数,若α(X)C9则称随机变量X关于9可测,即随机变量X取值的信息包含在9的信息中,只要对wEα以及任意Ce都能判断wEC是否成立,则X(w)的取值可以确定:这是因为A=w:X(w)=)E,且对r,AnAr=0。分布函数F(r)具有如下性质:(1)单调增、右连续:(2) lima→= F(r) = 0, limr-→. F(r) = 1 .满足上述性质的函数F()称为分布函数,必存在概率空间(2,,P)以及其中的随机变量X使得X以F(r)为分布函数。事实上,取=R,=(R)
20 CHAPTER 1. 预备知识 例 1.14. 设事件 𝐴 ∈ F,令 𝐼𝐴(𝜔) = ⎧{ ⎨{⎩ 1, 若𝜔 ∈ 𝐴, 0, 若𝜔 ∉ 𝐴, 则 𝐼𝐴(𝜔) 是随机变量,简记为 𝐼𝐴 或 𝐼[𝐴],称为 𝐴 的示性函数。 证明:对 𝑥 < 0, {𝐼𝐴 ≤ 𝑥} = ∅ ∈ F; 对 0 ≤ 𝑥 < 1, {𝐼𝐴 ≤ 𝑥} = {𝐼𝐴 = 0} = 𝐴𝑐 ∈ F; 对 𝑥 ≥ 1, {𝐼𝐴 ≤ 𝑥} = Ω ∈ F. 对随机变量 𝑋,令 𝜎(𝑋) = 𝜎({𝑋−1((−∞, 𝑥]), 𝑥 ∈ ℝ}) = 𝜎({{𝜔 ∶ 𝑋(𝜔) ≤ 𝑥} ∶ 𝑥 ∈ ℝ}), 称为由 𝑋 生成的 𝜎 代数,可以理解为观测到 𝑋 后所能获得的信息,即对 ∀𝐴 ∈ 𝜎(𝑋),在观测到 𝑋 的值后都可以确定 𝐴 是否发生。 𝜎(𝑋) 的一个等价定义是 𝜎(𝑋) = {𝑋−1(𝐵) ∶ 𝐵 ∈ B(ℝ)}, 其中 𝑋−1(𝐵) = {𝜔 ∶ 𝑋(𝜔) ∈ 𝐵}。Ω → ℝ 的函数 𝑋 是 F 随机变量,当且仅 当 𝜎(𝑋) ⊂ F。 设 𝑋 是概率空间 (Ω, F, 𝑃 ) 上的随机变量,G 是 F 的子 𝜎 代数,若 𝜎(𝑋) ⊂ G , 则称随机变量 𝑋 关于 G 可测,即随机变量 𝑋 取值的信息包含在 G 的信息中, 只要对 𝜔 ∈ Ω 以及任意 𝐶 ∈ G 都能判断 𝜔 ∈ 𝐶 是否成立,则 𝑋(𝜔) 的取值可 以确定:这是因为 𝐴𝑥 = {𝜔 ∶ 𝑋(𝜔) = 𝑥} ∈ G ,且对 𝑥 ≠ 𝑥′,𝐴𝑥 ∩ 𝐴𝑥′ = ∅。 分布函数 𝐹(𝑥) 具有如下性质: (1) 单调增、右连续; (2) lim𝑥→−∞ 𝐹(𝑥) = 0, lim𝑥→∞ 𝐹(𝑥) = 1 . 满足上述性质的函数 𝐹(𝑥) 称为分布函数,必存在概率空间 (Ω, F, 𝑃 ) 以及其 中的随机变量 𝑋 使得 𝑋 以 𝐹(𝑥) 为分布函数。事实上,取 Ω = ℝ, F = B(ℝ)
211.2.随机变量与分布函数P((-oo,a))=F(r),则对wER定义X(w)=w即可。所以,任何一个分布函数F()都定义了(R,B(R))上的一个概率测度μF(-),满足μF((-00,b) = F(b), μF(a,b) = F(b) - F(a)例1.15.对AE?,考虑X=IA,易见(X) = 0([0, A, 2)) = [0, A, 2, A9) = 0([A)所以α(IA)=α((A))包含了所有的关于A是否发生的信息,观测到IA的值就可以确定事件A是否发生。定义1.8(Borel函数).设f(r)为R-→R的函数,如果VyER,r:f(r)≤y)E(R),则称f(a)是Borel可测函数,简称Borel函数。连续函数和分段连续函数都是Borel函数。Borel函数可以推广到Rn→Rm的函数。Borel函数可以看成是(R,B(R))上的随机变量,随机变量可以看成是Borel函数的推广。定理1.2.(1)设X为随机变量,f()为Borel函数,令Y=f(X),则Y也是随机变量,且Y关于(X)可测。(2)在(1)条件下,若X关于9可测,则Y也关于9可测。(3)如果随机随机变量Y关于o(X)可测,则必存在Borel函数使得Y=f(X)。参见(马敬堂,梁浩,and杨文异2024)P.6性质1.2.4、1.2.5、1.2.6。1.2.2随机向量定义1.9.若X1X,是(2,)的随机变量,称X=(X1.,X)为随机向量。定义o(X) = o(Xi,...,Xn) = o((X-'(-0, rl) : r E R, i = 1,.., n))用α(Xi.…,X,)表示观测到Xi,…,X,以后能够确定是否发生的所有事件的集合,或简单理解为知道X1.…,X,的值所能获得的信息
1.2. 随机变量与分布函数 21 𝑃 ((−∞, 𝑥]) = 𝐹(𝑥),则对 𝜔 ∈ ℝ 定义 𝑋(𝜔) = 𝜔 即可。所以,任何一个分布 函数 𝐹(𝑥) 都定义了 (ℝ, B(ℝ)) 上的一个概率测度 𝜇𝐹 (⋅),满足 𝜇𝐹 ((−∞, 𝑏]) = 𝐹(𝑏), 𝜇𝐹 ((𝑎, 𝑏]) = 𝐹(𝑏) − 𝐹(𝑎). 例 1.15. 对 𝐴 ∈ F, 考虑 𝑋 = 𝐼𝐴,易见 𝜎(𝑋) = 𝜎({∅, 𝐴, Ω}) = {∅, 𝐴, Ω, 𝐴𝑐} = 𝜎({𝐴}), 所以 𝜎(𝐼𝐴) = 𝜎({𝐴}) 包含了所有的关于 𝐴 是否发生的信息,观测到 𝐼𝐴 的值 就可以确定事件 𝐴 是否发生。 定义 1.8 (Borel 函数). 设 𝑓(𝑥) 为 ℝ → ℝ 的函数,如果 ∀𝑦 ∈ ℝ, {𝑥 ∶ 𝑓(𝑥) ≤ 𝑦} ∈ B(ℝ),则称 𝑓(𝑥) 是 Borel 可测函数,简称 Borel 函数。 连续函数和分段连续函数都是 Borel 函数。Borel 函数可以推广到 ℝ 𝑛 → ℝ𝑚 的函数。 Borel 函数可以看成是 (ℝ, B(ℝ)) 上的随机变量,随机变量可以看成是 Borel 函数的推广。 定理 1.2. (1)设 𝑋 为随机变量,𝑓(⋅) 为 Borel 函数,令 𝑌 = 𝑓(𝑋),则 𝑌 也是随机变量,且 𝑌 关于 𝜎(𝑋) 可测。 (2)在 (1) 条件下,若 𝑋 关于 G 可测,则 𝑌 也关于 G 可测。 (3)如果随机随机变量 𝑌 关于 𝜎(𝑋) 可测,则必存在 Borel 函数 𝑓 使得 𝑌 = 𝑓(𝑋)。 参见 (马敬堂, 梁浩, and 杨文昇 2024) P.6 性质 1.2.4、1.2.5、1.2.6。 1.2.2 随机向量 定义 1.9. 若 𝑋1 , . , 𝑋𝑛 是 (Ω, F) 的随机变量,称 𝑋 = (𝑋1 , . , 𝑋𝑛) 为随机 向量。 定义 𝜎(𝑋) = 𝜎(𝑋1 , . , 𝑋𝑛) = 𝜎({𝑋−1 𝑖 ((−∞, 𝑥]) ∶ 𝑥 ∈ ℝ, 𝑖 = 1, . , 𝑛}). 用 𝜎(𝑋1 , . , 𝑋𝑛) 表示观测到 𝑋1 , . , 𝑋𝑛 以后能够确定是否发生的所有事件的 集合,或简单理解为知道 𝑋1 , . , 𝑋𝑛 的值所能获得的信息
22CHAPTER1.预备知识随机向量X也可以看成是2到Rn的函数,有(X) = α((X-(B) : B E B(R"),设X和Y是两个随机变量,令=X+iY(其中i是虚数单位),称Z为复值随机变量,也可以看成是到复数域C的可测映射。定理1.3.(1)若X,Y是随机变量,则{X<Y),{X≤Y),{X=Y)及[XY)都属于:(2)若X,Y是随机变量,则X±Y与XY亦然:(3)若(Xn)是随机变量序列,则supXn,inf,Xn,limsupn-→Xn和liminfn→Xn都是随机变量,证明见(张波,商豪,and邓军2023)P.9。对于随机向量X=(X1,…,Xn),定义它的(联合)分布函数定义为F(r1...,an)=P(Xi≤1...,Xn≤an)定理1.4.若F(1,,n)是联合分布函数,则(1)F(r1.,n)对每个变量都是单调增的;(2)F(1,…,n)对每个变量都是右连续的;(3)对i=1,2,,n有limF(ri,..,i..,an)=0,i-→- (- .如果(an)="对所有的(1,…, n)R"存在,则称函数f(ri..,an)为F(ri.,an)或X=(Xi.,Xn)的联合密度函数,并且F(ai,..,rn)= /(ti.tn)dtn...dti.设F(ai.an)为Xi,Xn的联合分布函数,1≤ki<.<km≤n,则XXk.的边缘分布..km(k.km)定义为Fk.. (k)=(.........)
22 CHAPTER 1. 预备知识 随机向量 𝑋 也可以看成是 Ω 到 ℝ 𝑛 的函数,有 𝜎(𝑋) = 𝜎({𝑋−1(𝐵) ∶ 𝐵 ∈ B(ℝ𝑛)}). 设 𝑋 和 𝑌 是两个随机变量,令 𝑍 = 𝑋 + 𝑖𝑌 (其中 𝑖 是虚数单位),称 𝑍 为 复值随机变量,也可以看成是 Ω 到复数域 ℂ 的可测映射。 定理 1.3. (1) 若 𝑋, 𝑌 是随机变量,则 {𝑋 < 𝑌 }, {𝑋 ≤ 𝑌 }, {𝑋 = 𝑌 } 及 {𝑋 ≠ 𝑌 } 都属于 F; (2) 若 𝑋, 𝑌 是随机变量,则 𝑋 ± 𝑌 与 𝑋𝑌 亦然; (3) 若 {𝑋𝑛} 是随机变量序列, 则 sup𝑛 𝑋𝑛, inf𝑛 𝑋𝑛, lim sup𝑛→∞ 𝑋𝑛 和 lim inf𝑛→∞ 𝑋𝑛 都是随机变量. 证明见 (张波, 商豪, and 邓军 2023) P.9。 对于随机向量 𝑋 = (𝑋1 , . , 𝑋𝑛), 定义它的 (联合) 分布函数定义为 𝐹(𝑥1 , . , 𝑥𝑛) = 𝑃 (𝑋1 ≤ 𝑥1 , . , 𝑋𝑛 ≤ 𝑥𝑛). 定理 1.4. 若 𝐹(𝑥1 , . , 𝑥𝑛) 是联合分布函数,则 (1) 𝐹(𝑥1 , . , 𝑥𝑛) 对每个变量都是单调增的; (2) 𝐹(𝑥1 , . , 𝑥𝑛) 对每个变量都是右连续的; (3) 对 𝑖 = 1, 2, . , 𝑛 有 lim 𝑥𝑖→−∞ 𝐹(𝑥1 , . , 𝑥𝑖 , . , 𝑥𝑛) = 0, lim 𝑥1 ,𝑥2 ,.,𝑥𝑛→∞ 𝐹(𝑥1 , 𝑥2 , . , 𝑥𝑛) = 1. 如果 𝑓(𝑥1 , . , 𝑥𝑛) = 𝜕 𝑛𝐹 𝜕𝑥1.𝜕𝑥𝑛 对所有的 (𝑥1 , . , 𝑥𝑛) ∈ ℝ𝑛 存在, 则称函数 𝑓(𝑥1 , . , 𝑥𝑛) 为 𝐹(𝑥1 , . , 𝑥𝑛) 或 𝑋 = (𝑋1 , . , 𝑋𝑛) 的联合密度函数, 并且 𝐹(𝑥1 , . , 𝑥𝑛) = ∫𝑥1 −∞ ⋯ ∫𝑥𝑛 −∞ 𝑓(𝑡1 , . , 𝑡𝑛) 𝑑𝑡𝑛 ⋯ 𝑑𝑡1 . 设 𝐹(𝑥1 , . , 𝑥𝑛) 为 𝑋1 , . , 𝑋𝑛 的联合分布函数, 1 ≤ 𝑘1 < ⋯ < 𝑘𝑚 ≤ 𝑛,则 𝑋𝑘1 , . , 𝑋𝑘𝑚 的边缘分布𝐹𝑘1 ,.,𝑘𝑚 (𝑥𝑘1 , . , 𝑥𝑘𝑚 ) 定义为 𝐹𝑘1 ,.,𝑘𝑚 (𝑥𝑘1 , . , 𝑥𝑘𝑚 ) =𝐹(∞, . , ∞, 𝑥𝑘1 , ∞, . , ∞, 𝑥𝑘2 , ∞, . , ∞, 𝑥𝑘𝑚 , ∞, . , ∞)
231.2.随机变量与分布函数常用分布1.2.3常用的两种类型随机变量:(1)离散型随机变量X的概率分布用分布列描述:Pk= P(X = ),k=1,2,..定义f(r) = ph, k = 1,2,...称f()为X的概率质量函数(PMF)。其分布函数为E pk:F(r) = TkS(2)连续型随机变量X的概率分布用概率密度f()描述,其分布函数F(a) =f(t)dt.1.2.3.1退化分布若随机变量X只取常数c,即P[X =c) = 1,则X并不随机,但我们把它看作随机变量的退化情况更为方便,因此称之为退化分布,又称单点分布.1.2.3.2Bernoulli分布在一次试验中,设事件A出现的概率为p,0≤p≤1,不出现的概率为1-p称这样的试验为Bernoulli试验。称A出现为成功,不出现为失败,p为成功概率,若以X记事件A出现(成功)的次数,即X=IA,则X的可能取值仅为0,1,其对应的概率为P[X = k) =p(1 -p)1-k, k = 0, 1
1.2. 随机变量与分布函数 23 1.2.3 常用分布 常用的两种类型随机变量: (1) 离散型随机变量 𝑋 的概率分布用分布列描述: 𝑝𝑘 = 𝑃 (𝑋 = 𝑥𝑘 ), 𝑘 = 1, 2, . , 定义 𝑓(𝑥𝑘 ) = 𝑝𝑘 , 𝑘 = 1, 2, . , 称 𝑓(⋅) 为 𝑋 的概率质量函数(PMF)。其分布函数为 𝐹(𝑥) = ∑𝑥𝑘≤𝑥 𝑝𝑘 . (2) 连续型随机变量 𝑋 的概率分布用概率密度 𝑓(𝑥) 描述,其分布函数 𝐹(𝑥) = ∫𝑥 −∞ 𝑓(𝑡) 𝑑𝑡. 1.2.3.1 退化分布 若随机变量 𝑋 只取常数 𝑐,即 𝑃{𝑋 = 𝑐} = 1, 则 𝑋 并不随机,但我们把它看作随机变量的退化情况更为方便,因此称之为退 化分布,又称单点分布. 1.2.3.2 Bernoulli 分布 在一次试验中,设事件 𝐴 出现的概率为 𝑝, 0 ≤ 𝑝 ≤ 1,不出现的概率为 1 − 𝑝, 称这样的试验为 Bernoulli 试验。称 𝐴 出现为成功,不出现为失败,𝑝 为成功 概率,若以 𝑋 记事件 𝐴 出现(成功)的次数,即 𝑋 = 𝐼𝐴,则 𝑋 的可能取值 仅为 0, 1,其对应的概率为 𝑃 {𝑋 = 𝑘} = 𝑝𝑘 (1 − 𝑝)1−𝑘, 𝑘 = 0, 1