Poisson分布是二项分布的一种极限分布情况,主要是Poisson回归是用来分析服从poisson分布的事件发生数(或率)与一组解释变量之间关系的统计学方法。Poisson分布常用于描述单位时间、单位平面或单位空间中罕见“质点”总数的随机分布。在现实生活中,许多事件的发生数服从poisson分布,如某段时间内电话机按到的呼唤次数,候车的乘客数,放射性物质在某个时间内放射的粒子数,纺纱机断头数,某页书上印刷错误个数,单位体积内粉尘数,单位容积中的细菌数,野外单位面积内的某种昆种数,血细胞或微生物在显微镜下的计数等,许多发病率很低的疾病(不具有传染性、永久免疫、无遗传性),在人群中患病数也服从Poisson分布。Poisson分布常用对数线性模型进行分析。
Poisson回归分析要求均数和方差相等,实际数据往往并不符合这一假定,方差有时会大于均数,就是所谓的过离散(Overdispersion),这将导致模型参数估计值的标准误偏小,参数wald检验的假阳性率增加。这种情况的出现可能是由于观测之间不独立性导致的。而在医学研究中,很多事件的发生是非独立性的。比如疾病的聚集性或家族性,或传染性疾病。
对于事件发生数的过离散情况,负二项分布是有效解决的一种方法。
Poisson回归与负二项回归分析都属于广义线性模型,在SAS中可以采用genmod处理。
Poisson回归分析:
Proc genmod data=data;
Model y/n=expose age/link=log dist=poisson lrci obstats residuals type1 type3 scale=deviance;
Run;
Proc genmod data=data;
Model numvist=reform badh age edu loginc/dist=poisson link=log;
Run;
注:dist=poisson表示poisson分布。
负二项回归分析:
Proc genmod data=data;
Model numvist=reform badh age euc loginc/dist=nb link=log type1 type3;
Run;
注:dist=nb表示为负二项分布。