线性回归中的Bayes估计+文献综述(4)

(   ,
θa+x-1(1-θ)n-x+b-1 0<θ<1         本科毕业设计说明书（论文）    第 4 页   共 22 页
此时用条件期望E{θ|x}作为θ 的估计值，得
这一结果有十分明显的统计意义，如同已经做了 a+b 次独立试验，事件 A发生
了a 次，在加上现在做的 n 此独立试验，事件 A发生了x次，一共做了 n+a+b 次试
验，而事件A一共发生了 a+x次，所以才有以上结果。所以共轭分布这一种方法，可
以很方便的将历史上做过的各次试验进行合理的综合，也可以为今后的试验结果分析
提供一个合理的前提[7]
。
1.3.3 Jeffreys 原则
所谓Jeffreys 原则包括两个部分：一是对先验分布有一合理的要求；另一部分
是给出一个具体的方法去求得合于要求的先验分布。 Jeffreys认为一个合理的决定先
验分布的准则应具有不变性。他利用 Fisher 信息阵的一个不变性找到了合于要求的
(θ 。定义参数θ 的信息量
设 ,…,   是独立同分布的， xi~f(x; θ),i=1,2,…,n.则p( ,…,     θ)=   (     θ
    ,则（1.8）
当θ 是一个参数向量时，则（1.8）就为一个信息阵，记θ
=( θ ,…, θ )’,则
Jeffreys原则的含义：θ 的先验分布应以信息阵 I(θ)的行列式的算术平方根为核，即
当然 Jeffreys 准则只是一个原则性的意见，用| (θ |
定义先验分布只是一个具体
的方法，而并不是 Jeffreys 原则所规定的必须方法，对于具体问题我们还可以去寻
找适合与具体问题的方法[7]
。
1.3.4 最大熵原则
设随机变量 x 是离散的，它取 ,…,   ,…至多可列个值，且 P(x=ai)=pi,i=1,2,…,
则- p l    p 称为x的熵，记作 H(x)。为了允许p =0，我们规定0ln0=0；对于连续性
的随机变量 x，若 x~p(x)，且积分- p( l p(    有意义，则称它是 x 的熵，也记为
H(x)。当随机变量 x改为随机向量时，我们同样可以求得随机向量的熵。
Bayes 假设提出的均匀分布是有一定根据的。“无信息”如果意着是不确定性最
大，那么无信息先验分布应是最大熵所相应的分布，在有限范围内定义的随机变量，
它的先验分布取为均匀分布时，由信息论的知识告诉我们熵才能达到最大值。进一步
想，Bayes 假设就相当于选最大熵相应的分布。所以最大熵原则可以概括为：无信息
先验分布应取参数 θ 的变化范围内熵最大的分布。
最大熵原则比起 Bayes假设来的确前进了不少，但是并不是在各种情况下都有最
大熵的分布，如在无限区间上就产生了各种各样的问题[7]。
将最大熵原则再推进一步，就可以导出 MDIP（Maximal Data Information Prior
Distributions）原则，而将 MDIP 原则再进一步演变可以得出广义最大熵原则。
1.3.5 Lindley,D.V.原则
     英国统计学家 Lindley 从共轭型分布进一步导出了无信息先验分布。我们这里继
续讨论例 1.1 的进一步结果，从这个例子中可以看出这一方法处理问题的具体步骤是
如何进行的。【例 1.2】[7]
θx(1-θ)n-x，用 β( ,b 作为先验分布时，后验分布就是
β( +x,n-x+b)，得到的估计θ   (x)=        线性回归中的Bayes估计+文献综述(4):http://www.751com.cn/shuxue/lunwen_4263.html