Logistic分布指当n趋向于无穷大时,从指数分布(exponential distribution)中抽取的容量n的随机样本的最大与最小样本值的平均的极限分布。密度函数为:f(x)=exp[-(x-α)/β]/β{1+exp[-(x-α)/β]}2,-∞<x<∞,β>0,分布函数为:1/f(x)=exp[-(x-α)/β]。位置参数α为均值。分布的方差为π2β2/3,它的偏斜度为0,峰度为4.2。α=o,β=1时为标准logistic分布(standard logistic distribution),它的累积概率分布函数(cumulative distribution function)F(x)与概率分布f(x)之间满足:f(x)=F(x)[1-F(x)]。
- 中文名
- Logistic分布
- 外文名
- Logistic Distribution
- 所属学科
- 数学(数理统计)
- 别 名
- 罗吉斯蒂克分布
- 相关概念
- Logistic函数等
如果一个随机变量 ,它的分布函数为
由图可见 的期望值 ,密度函数对 对称。分布函数F(x)在 处等于005。(0,0,5)为曲线F(x)的对称点,而F(x)=0及F(x)=1为其渐近线。在(0,0,5)点处F(x)的斜率m=0.25。这是logistic函数的最简单的形式 [1]。
Logistic分布函数为
其中 。
因此有时上也从 出发,以它作为标准分布,经随机变量线性变换后导出的分布作为一般的Logistic分布 [2]。
一般地,一元logistic函数可表为
更一般的logistic函数为多元的(设为m元)
在研究来自同一总体的两个变量(设为X和Y)间的关系时,采得容量为n的样本 。画出这组数据的散点图,如曲线接近S形,可试用logistic曲线去拟合它。
模型概念
Logistic回归模型是分析二分类型变量时常用的非线性统计模型,是最重要且应用最广泛的非线性模型之一。该模型的因变量为二分类变量(y=0或y=1),结果变量与自变量间是非线性关系。形式如方程(1):
模型优缺点
优点:
第二,总体预测准确率较高;
第三,数据来源直接,操作简便;
第四,判断标准明确;
第五,模型稳定,利于推广创新。
缺点:
第一,大多数时候对ST企业预测准确率较低;
第二,P值临界点的选择影响模型预测结果;
第三,违约样本与正常样本的比例影响预测结果 [1]。
模型原理
模型构造的原理简单来说是运用对数运算将事件发生与否(即事件发生概率 或1)与自变量x间的非线性关系转化为线性关系。以单一自变量为例,具体转化步骤如下:
第二步,方程(2)化简转化为如下方程(3)。
第三步,方程(3)等式两边同时取对数转化为如下方程(4)。
模型(4)得出 与x间的线性关系方程。
此时, 与 虽然不存在线性关系,但是关于P的函数记作logistic(Pi)与 存在线性关系。同理,自变量可拓展为m个,则有如下模型方程(5)。
以上得到的模型同样可以用来预测事件的发生。预测时根据已知自变量与模型方程得出 ,可以进一步计算事件发生的概率P。P处于0与1之间,越接近1表示发生的概率越大 [1]。
模型基本假设
第一,数据必须来自随机样本;
第二, 为m个自变量 的函数;
第三, 或1;
第四,自变量不需要呈正态分布 [1]。
模型应用步骤
第一步,选取样本、确定初始指标;
第二步,筛选指标;
运用SPSS软件对所有指标进行Kolmogorov-Smirnov正态分布检验。符合正态分布的指标进行显著性T检验,不符合正态分布的数据进行Mann-Whitney显著性检验,去除不显著指标。进行Pearson检验,去除与其他指标存在高度相关性的指标。进行多重共线性检验,去除与其他指标存在多重共线性的指标;
第三步,进行KMO检验,确定是否进行因子分析;
第四步,进行Logistic回归,得到模型,观察模型拟合程度及预测准确率;
第五步,用检验样本检验模型预测能力;
第六步,利用模型预测事件的发生概率 [1]。
模型参数解释
当参数b大于0时,自变量x增大, 减小, 增大;
当参数b小于0时,自变量x增大, 增大, 减小;
当参数b等于0时,自变量x增加对 无影响, 不变。
因此,模型参量系数可以反映自变量x与事件发生概率P的关系。系数为正表明自变量x的增长促进事件的发生,系数为负表明自变量x的增长抑制事件的发生 [1]。