时间:2022-02-26 14:17:53
如下图所示,在这种情况下,布本身来说矩并不一定有限,而且亚指数分布无法通过矩母函数求矩,均值和方差在下一次跃变前会出现“伪收敛”,之前我们所提到的平均斯坦和极端斯坦的界限就出现在亚指数地带,且增大样本并不会收敛,假定如下条件:亚指数的尾部比指数分布的尾部更厚,比如柯西分布的均值和方差并不存在,我们通过矩的收敛情况将肥尾程度做如下分类,对于所有的ε>0:临界概率分布根据尾部的极限特征,亚指数分布和幂律分布在分布由极度薄尾(伯努利)到极度肥尾的过程中,每个不同的样本都会得到不同的矩,对于随机变量我们可以进行如
现在我们要考虑的是一个probabilityconcentration的问题,也可以说是去研究概率分布的尾巴。在随机变量方差存在的情况下,我们有切比雪夫不等式。它利用到了随机变量的方差,而且它的界是紧的,即我们总可以构造出一个随机变量使切比雪夫不等式取等号。但是,对于一些常见的概率分布而言,无论是正态分布还是指数分布等,切比雪夫的界都显得太过粗糙。
除上面的情况之外,如果使用其他的约束,我们将会得到不同的发放率分布。比如,如果要求发放率有固定的均值,且,那么我们将得到分布为指数分布。如果要求有固定的均值和固定的方差(假设没有的约束),那么我们将得到为高斯分布。具体的约束与最大熵分布的关系,可以参考最大熵原理。(在统计力学中,有一个类似于牛顿力学中”最小作用量原理“的”最大熵原理“,可以得到一些非常有意思的结论。可参考wiki:
统计学也是我们后面进行很多分析的基础,那么统计部分主要分为三大模块,首先第一个模块就是描述性统计,那么这一点有助于帮助我们那到一个数据集的时候可以进行初步的描述分析,在描述统计当中,需要掌握的比较概念就包括均值,中位数,众数,方差,极大值以及小值除此之外我们还需要了解整体的数据分布,那么在数据分布当中,主要的数据分布就包括正态分布,伯努利分布,二项分布,均匀分布,泊松分布以及指数分布同时均值和中位数的比较还直接决定了这个数据集分布的偏度以及峰度,最后我们还需要去识别数据集当中缺失值以及异常值.