人口预测模型经典

中国人口预测模型

摘要

本文对人口预测的数学模型进行了研究。首先，建立一次线性回归模型，灰色序列预测模型和逻辑斯蒂模型。考虑到三种模型均具有各自的局限性，又用加权法建立了熵权组合模型，并给出了使预测误差最小的三个预测模型的加权系数，用该模型对人口数量进行预测，得到的结果如下：

其次，建立Leslie人口模型，充分反映了生育率、死亡率、年龄结构、男女比例等影响人口增长的因素，并利用以1年为分组长度方式和以5年为

率负指数函数，并给出了反映城乡人口迁移的人口转移向量。

最后我们BP神经网络模型检验以上模型的正确性

关键字：一次线性回归灰色序列预测逻辑斯蒂模型 Leslie人口模型BP神经网络

；

一、问题重述

1. 背景

人口增长预测是随着社会经济发展而提出来的。由于人类社会生产力水平低，生产发展缓慢，人口变动和增长也不明显，生产自给自足或进行简单的以货易货，因而对未来人口发展变化的研究并不重要，根本不用进行人口增长预测。而当今社会，经济发展迅速，生产力达到空前水平，这时的生产不仅为了满足个人需求，还要面向社会的需求，所以必须了解供求关系的未来趋势。而人口增长预测是对未来进行预测的各环节中的一个重要方面。准确地预测未来人口的发展趋势，制定合理的人口规划和人口布局方案具有重大的理论意义和实用意义。

2. 问题

人口增长预测有短期、中期、长期预测之分，而各个国家和地区要根据实际情况进行短期、中期、长期的人口预测。例如，中国人口预期寿命约为70岁左右，因此，长期人口预测最好预测到70年以后，中期40—50年，短期可以是5年、10年或20年。根据2007年初发布的《国家人口发展战略研究报告》（附录一）及《中国人口年鉴》收集的数据（附录二），再结合中国的国情特点，如老龄化进程加速，人口性别比升高，乡村人口城镇化等因素，建立合理的关于中国人口增长的数学模型，并利用此模型对中国人口增长的中短期和长期趋势做出预测，同时指出此模型的合理性和局限性。

二、问题的基本假设及符号说明

问题假设

1．-

2．假设本问题所使用的数据均真实有效，具有统计分析价值。

3．假设本问题所研究的是一个封闭系统，也就是说不考虑我国与其它国家的人口迁移问题。

4．不考虑战争瘟疫等突发事件的影响

5．在对人口进行分段处理时，假设同一年龄段的人死亡率相同，同一年龄段的育龄妇女生育率相同。

6．假设各年龄段的育龄妇女生育率呈正态分布

6．人类的生育观念不发生太大改变，如没有集体不愿生小孩的想法。

7.中国各地各民族的人口政策相同。

符号说明

()

a t--------------------第t时间区间内第i个年龄段人口总数

c t--------------------第t时间区间内第i个年龄段人口总数占总人口的比()

例

()k i c t --------------------第t 时间区间内第i 个年龄段中第k 年龄值人口总

数占总人口的比例

()A t --------------------第t 时间区间内各年龄段人口总数的向量 ()P t --------------------第t 时间区间各年龄段人口总数向量转移矩阵 ()i b t -------------------第t 时间区间内第i 个年龄段人的生育率 ()i d t -------------------第t 时间区间内第i 个年龄段人的死亡率

()k i d t -----------------第t 时间区间内第i 个年龄段中第k 年龄值的死亡率

()i s t -------------------第t 时间区间内第i 个年龄段人的存活率

()h t --------------------- 第t 时间区间男性人数与女性人数的比值 ()i e t ---------------------第t 时间区间内第i 个年龄段育龄妇女的生育率

m---------------------------每个年龄段上年龄值的数目

[

三问题分析

本问题是一个关于人口预测的问题，与以往不同，本问题需要根据中国特殊的国情去研究，我们根据对问题的分析并结合实际情况认为对人口产生主要影响的因素有以下四个：生育率、死亡率、年龄结构、男女比例。在这里需要说明的是对于人口产生影响的一些因素，如经济发展状况，生态环境情况、已婚夫妇对生育所持的态度、医疗技术的发展等，我们认为它们对人口的增长是通过作用于以上四个指标而间接发挥作用的。而对于诸如战争爆发、疾病流行等突发因素，由于其不可预测性，我们不考虑

1．生育率

生育率代表育龄妇女生育人口的能力，从一定意义上讲生育率的高低控制着人口增长率高低，通常来说生育率越高人口增长率越高，所以说生育率是人口增长的源头。生育率的影响因素很多，首先是年龄因素，不同年龄段的育龄妇女的生育率不同，通常20岁至30岁的育龄妇女的生育率最强；此外是地域因素，受政策因素、观念认识、周边环境等影响乡村育龄妇女的生育率高于城市育龄妇女的生育率；还有其它因素的影响，比如大规模疾病会降低育龄妇女的生育率。

2．死亡率

死亡率表示一定时期内一个人口群体中死亡的人数占该人口群体的比值，和生育率一样死亡率的高低同样控制着人口增长率高低，如果说生育率是人口增长的源头，则死亡率是人口增长的汇点。同样影响死亡率的因素很多，首先不同年龄段的死亡率不同，通常老年人和刚出生的婴儿的死亡率较高；从长远来看，随着医疗水平的提高，整个人口群体的死亡率将会成下降趋势；此外一些突发事件，

如战争、疾病等，将会使使那一段的人口死亡率大幅度提高。

3．年龄结构

年龄结构反映了总体人口在各年龄段分布情况，年龄结构蕴涵的信息量很大，从其中我们可以实现对很多问题的分析，比如从年龄结构我们可以分析出社会的老年化程度，此外从年龄结构我们可以判断出不同时间段人口出生的情况，比如年龄结构不仅反映了总体人口在各年龄段分布情况，而且考虑到不同年龄段人口生育率、死亡率不同等情况，我们可以在年龄结构中有效反映这些差异4．男女比例

男女比例反映了总体人口中男性与女性人数的比较关系，男女比例值能反映出体人口中男性与女性人数是否协调，男女比例主要受男女出生比和男女死亡率的影响，男女出生比正常范围在103－107，也就是说出生100个女儿的同时会有103 —107个男儿出生，但是在现实社会中，女性死亡率低于男性，所以男性与女性人数大致相等，社会维持在一个稳定状态。但目前我国男女出生比超过110，这不仅将导致男女比例失调，还会对人口的预测产生影响，所以在人口预测时必须将男女比例问题考虑进去。

考虑到人口预测分为中短期预测和长期预测，两类预测因为涉及的时间长短不同，所以考虑的因素不同，采用的方法不同。

对于中短期预测，我们假设生育率、死亡率、年龄结构、男女比例均维持在同一稳定水平，这样我们采用方法有很多，。

对于长期预测，我们需要考虑生育率、死亡率、年龄结构、男女比例等因素随时间变化，此外城乡人口迁移对城乡人口结构产生影响，尽管以上因素短期内积累效应较小，但在长期中必须考虑。

在预测方法上我们选用了基于以往人口数据的一次线性回归，灰色、时间序列预测，逻辑斯蒂模型和基于年龄结构并生育率、死亡率随时间Leslie人口模型

四数学模型

.熵权组合模型

}

有关于人口增长预测的模型很多，比如灰色GM（1，1），移动平均数法，指数平滑法，一元线型回归，马尔萨斯人口模型，宋健人口模型等等，但是每种预测方法的精度往往也不同。组合模型和单个模型比起来，具有较高的预测精度，组合预测的关键就在于确定各个预测方法的权重。

本文将从一个新的角度进行研究，即从信息论的观点出发，根据各个体预测方法误差指标的信息熵，确定组合预测模型的权重，进行人口组合预测模型。

本文选用了一元线性回归法，逻辑斯蒂模型法，灰色GM（1，1）模型法对中国人口增长进行预测。而1978至2005年的数据见本文表一。

.4..灰色预测模型

1.模型建立

灰色系统是指部分信息已知，部分信息未知的系统。灰色系统的理论实质是将无规律的原始数据进行累加生成数列，再重新建模。由于生成的模型得到的数据通过累加生成的逆运算――累减生成得到还原模型，再有还原模型作为预测

模型。

预测模型，是拟合参数模型，通过原始数据累加生成，得到规律性较强的序列，用函数曲线去拟合得到预测值。灰色预测模型建立过程如下：

1) 设原始数据序列()0X 有n 个观察值，()()()()()()(){}n X X X X 0000,...,2,1=，通过累加生成新序列 ()()()()()()(){}n X X X X 1111,...,2,1=，利用新生成的序列()1X 去拟和函数曲线。 ^

2) 利用拟合出来的函数，求出新生序列()1X 的预测值序列(1)X

3) 利用(0)(1)(1)()()(1)X k X k X k =--累减还原：得到灰色预测值序列： ()()(){}00001,2,...,X X X X n m =+ (共n ＋m 个，m 个为未来的预测值)。将序列()0X 分为0Y 和0Z ，其中0Y 反映()0X 的确定性增长趋势，0Z 反映()0X 的平稳周期变化趋势。

利用灰色GM （1，1）模型对()0X 序列的确定增长趋势进行预测 2 模型求解

根据2006全国统计年鉴数据整理得到全国历年年度人口统计表如表1.

根据上述数据，建立含有20个观察值原始数据序列()0X ：

()[]

09625998705105851112704

127627128453129988130756X =利用Matlab 软件对原是数列()0X 进行一次累加，得到新数列为()1

X ，如表2：

表2：新数列()1X 误差和误差率

1、利用表2，拟合函数，如下：

0.011624(1)92800439183784t x t e +=-

2、精度检验值

c ＝（很好） P ＝（好）

3、得到未来20年的预测值：

一元线性回归法

根据表一中的数据，本文建立一元线性回归模型Y a bX =+进行预测；；

Y 为人口数单位：万人 X 为年份。利用Matlab 软件，用麦夸特法进行回归拟合，得到拟核值及回归方程，如下：

102974.50531572.3805Y X =+ 相关系数：R ＝

逻辑斯蒂模型（Logistic growth model ）

考虑自然资源和环境对人口的影响，并以m N 记自然资源和环境条件所能允许的最大人口数。把人口增长的速率除以当时的人口数称为人口的净增长率。如果人口的净增长率随着)(t N 的增加而减小，且当m N t N →)(时，净增长率趋于零。因此人口方程可写成

：

)())

(1()(t N N t N r dt t dN m

其中r 为常数，此模型就叫逻辑斯蒂模型。

我们把1978年至2005年全国历年年底总人口的数值组成一个观察矩阵，其中的每一个数值称之为观察值。本文利用spss 软件，得出与观察值一一映射的拟核值，残差值和cook 距离，见下表：

表九用spss 软件得到各观察值所对应的拟核值，残差值和标准残差

从新数据得到 F ＝ p －值＝

本文建立逻辑斯蒂模型：0.8840.185130517.5/(1)x y e --=+

相关系数R ＝

组合模型建立

1、熵权法的概念及基本步骤

熵权法是一种决定指标的方法，我们知道，综合指标取决于单个指标数的确定，一般情况下的权重是根据经验来确定的，但是这种确定权重的方法缺少科学根据，也不能保证确立的综合指标能反映原始指标的大部分信息，且权重的确立因人而异，所以其应用受到了限制，而熵权法就能够避免这些问题，使权重的确立具有科学的根据，具有说服力。熵权法的步骤确立如下： ① 计算第j 项指标下第i 个方案的指标比重1

ij m

i y p y

∑

② 计算指标j 的熵值 1

ln m

j ij ij i e k p p ==-∑ （1

ln k m

） ③ 计算第j 项指标的差异系数 1j j g e =- ④ &

⑤

定义权重1

ij m

i g w g

∑

则 ij w 就为熵权法确定的权重。

2、误差指标的选举

为了能全面的各个预测方法以及组合预测的预测效果，必须制定一套切实可行的误差指标。按照预测效果的评价惯例，本文选取如下指标作为参考：（1）、平方和误差

()n

i i t SSE y y ==-∑

（2）、平均绝对值误差

i i t MAE y y n ==-∑

（3）、均方误差

MSE =

（4）、平均绝对值百分比误差

1()

1n i i t i

y y MAPE n y =-=∑

（5）、均方百分比误差

MSPE =

3、组合模型权重的确定

设以选定m 种个体预测方法，n 个误差指标，m 种个体预测方法对应n 个误差指标构成了评价指标值矩阵；

()ij R r m n =?

第j 个指标下第i 种个体方法的指标比重值ij P 为 1/m

ij ij ij t P r r ==∑

第j 个指标的熵值为：

ln m

j ij ij t E P P ==-∑

记

ln j j e E = 第i 个指标的权重为：

(1)/(1)m

j j j t e e θ==--∑

记矩阵R 中每列最优值为j r *，对该矩阵所有元素做标准化处理，可得：

//ij j ij j ij r r j d r r j *

*??=???指标的指标值越大越好

指标的指标值越小越好

这样，各个体预测方法的熵权评价值i λ，可以表示为： 1(0,1,2,

,)m

i j ij t d i m λθ===∑

将上式进行归一化处理，即可以得到各个个体的权重。

熵权组合模型求解 ;

本文利用Matlab 软件对上述的模型、指标进行综合的运算处理，得到熵权系的基本数据资料，见下表：

加权系数为：，，。

Leslie 人口模型

模型建立 &

在这里我们将人口按年龄大小等分为n 个年龄组，记i=1,2,… , n

同时将时间离散为时段，长度与年龄组区间相等，记k=1,2,…

定义()i a t 为第t 时间区间内第i 个年龄段人口总数，

()i b t 为第t 时间区间内第i 个年龄段人的生育率。

则有下面关系：

11(1)()n

i i i a t a t b =+=∑

定义第i 年龄组在1时段内的死亡率为i d , 则存活率为i s =1- i d

则有下面关系

1(1)(),1,2,

,1i i i a t a t s i n ++==-

定义()A t 为第t 时间区间内各年龄段人口总数的向量

[]12()(),(),

()n A t a t a t a t =

：

定义()P t 为第t 时间区间各年龄段人口总数向量转移矩阵

211000()00

0n n n

b s b s P t b s b --???????

?=????????

由以上定义有

(1)()()A t A t P t +=

进而有以下关系

1()(1)()n i A t A P i -==∏

需要说明的是为减小误差每次计算A(t)完后用公式11(1)()()n n n n n a t a t s a t s --+=?+?校正(1)n a t +

数据分析及处理 *

我们分别对m=1和m=5进行说明 m 表示每个年龄段上年龄值的数目

对于m ＝1的情况，

1、各年龄分层人口占总人口的比率

对于m ＝1的情况，各年龄分层人口占总人口的比率就是各年龄值占总人口的比率，

为消除各年数据随机性我们我们采用对各年数据取平均值的方法得到数据。

2、各年龄分层人口的死亡率

与上面分析相同我们采用对各年数据取平均值的方法得到数据。 3、各年龄分层上育龄妇女的生育率

通过观察我们发现2003年生育率很低，我们猜想这是由于那一年有非典的原因，因此在剔除这一年的数据后对各年数据取平均值的方法得到数据。

我们假设各年龄分层上育龄妇女的生育率呈正态分布进行数据拟合。

]

图2 m ＝1时育龄妇女的生育率正态分布图

对于m=5的情况

为了实现年龄结构分析，同时也为了对生育率和死亡率这些与年龄段有明显联系的指标分析

我们决定对人口统计数据进行年龄分层处理。具体实现办法为以5年为年龄分段长度对附件中数据进行分层，例如0－4岁为第1年龄段，15－19岁为第4年龄段，90岁以上老人由于所占比例较小，不对统计产生显著影响，故与最后一组一起研究。

需要说明的是与m ＝1情况的处理方法一样，我们先对各年数据取平均值的方法得到分析数据。

1．各年龄分层人口占总人口的比率 '

附表的数据给出了不同年龄值男性和女性人数占总人数的比率，对于某一年龄段人口占总人口的比率为该年龄段中各年龄值男性或女性人数占总人数的比率之和，公式如下

()()k ij ij k c t c t ==∑

式中 j=1,2 其中1表示男性，2表示女性

附表中给出的数据是分别给出男性比率和女性比率，这里由于我们要把男女作为一个整体，所以我们对各年龄分层男性比率和各年龄分层女性比率相加得到各年龄分层人口占总人口的比率，公式如下

12()()()i i i c t c t c t =+

式中()i c t 表示第t 时间区间内第i 个年龄段人口总数占总人口的比例

1()i c t 表示第t 时间区间内第i 个年龄段中男性比率

2()i c t 表示第t 时间区间内第i 个年龄段中女性比率

）

2. 各年龄分层人口的死亡率

各年龄分层男性死亡率或女性死亡率为各年龄分层中不同年龄值男性死亡率或女性、系数加权得到，公式如下：

()()

k k ij ij k ij k ij

k c

t d t d t c

t ==?=

∑∑

式中 j=1,2 其中1表示男性，2表示女性

与上面一样我们对各年龄分层男性死亡率和各年龄分层女性死亡率系数加权得到第t 时间区间内第i 个年龄段人的死亡率

112212()()()()

()()()

i i i i i i i c t d t c t d t d t c t c t ?+?=

式中()i d t 表示第t 时间区间内第i 个年龄段人的死亡率 1()i d t 表示第t 时间区间内第i 个年龄段男性的死亡率 2()i d t 表示第t 时间区间内第i 个年龄段女性的死亡率

在这里需要说明的是第0岁较高，出现奇异，分析原因我们认为这是婴儿的出生造成的， <

我们对第1个年龄段人的死亡率进行校正，

112

()()

k k j j k j k j

k c

t d t d t c

t ==?=

∑∑

说明：为便于表示令第0岁为第1年龄值

镇@

乡

城;

镇?

乡

城[

镇，乡

3．各年龄分层上育龄妇女的生育率

同以上分析()

e t为每个年龄段上对应各个年龄值的育龄妇女的生育率之和

我们假设()

e t呈正态分布：

图3 m＝5时育龄妇女的生育率正态分布图

模型求解

对于m=1的情况

年份2006。

2007

20082009201020112012

人数（万

人）

130990131230131430131620,

131800

132000132220

图4 m＝1时人口预测图象

对于m=5的情况

表12 m＝5时人口预测

年份2006-20102011-20152016-20202021-20252026-2030$

2031-2035

2036-20402041-2045人数

（万人）134000139000144000148000150000150000151000^

150000

图5 m ＝5时人口预测图象

模型改进

1．考虑到生育率和死亡率是随时间变化的，我们可以定义生育率和死亡率为时间函数（1）生育率

影响生育率因素有受政策因素、观念认识、周边环境等，通常来说农村的生育率高于城市，为了有效区分这种差异性，我们定义b(t)为反映城、镇、乡平均生育率水平的基准生育率，定义cb(t)、tb(t)、vb(t)分别为城、镇、乡平均生育率则1()()cb t a b t =?，2()()tb t a b t =?，3()()vb t a b t =?

其中1a 、2a 、3a 为反映生育率高低的系数，系数的大小根据具体情况确定显然有123a a a <<

考虑到随着时间的推移，计划生育政策深入人心，农村生育率将降低用下面函数反映这种变化

()(0)bt vb t vb a e -=??

式中a,b 为参考系数

（2）死亡率

随着时间的推移，医疗水平的提高，死亡率将下降，但死亡率中有一部分是非疾病死亡，对于青年人死亡率比较平稳，死亡率变化主要体现在老年人。

定义()i d t 为第t 时间区间内第i 个年龄段人的死亡率

(0),()(0),i i bt

i d i l

d t d a

e i l

-≤??=???>?? 式中a,b 为参考系数，用来区分青年与中老年

2．}

3．考虑到城乡人口转移因素

城乡人口转移将会对城乡人口结构产生影响，因此必须进行研究，考虑到人口主要是从镇转入城，从乡转入城，从乡转入镇

因此定义B(t)为从镇转入城的转移向量，C(t)为从乡转入城的转移向量，D(t)为从乡转入镇的转移向量。以C(t)为例说明转移向量，

{}1122()()(),()(),,()()n n C t w t v t w t v t w t v t =???

式中()i v t 表示第t 时间区间内第i 个年龄段的农村人数，

()i w t 表示第t 时间区间内第i 个年龄段人的农村转入城市的百分比则A ’(t)=A(t)+B(t)+C(t) 表示城乡人口转移后的人口向量每次计算完()(1)(1)A t A t P t =-- 再计算A ’(t)=A(t)+B(t)+C(t) (

模型优缺点分析

1．Leslie 人口模型可以分析不同年龄组生育率与死亡率不同的情况 2．Leslie 人口模型中可以考虑生育率与死亡率随时间变化的情况 3．Leslie 人口模型中可以分析出年龄结构的情况

4．Leslie 人口模型中对给出的关于年龄结构的统计数据要求较高 5．Leslie 人口模型对男女比例不平衡情况反映敏感

6．Leslie 人口模型中选取分组的年龄段长度不同，适于的预测期长短不同

BP 神经网络人口预测模型！

基于BP 神经网络的时间序列预测模型与传统模型不同的是：此模型只需以历史数据作为输入，通过抑制与激活神经结点，自动决定影响性能的参数及影响程度，自动形成模型，无需进行模型假设，再加上神经网络对复杂的非线性系统具有曲线拟核能力，预测能力强，所以是合适的对比检验模型。

matlab 实现：

P 为输入样本矢量集;T 为对应的目标样本矢量集.设:输入样本 p=[1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 ] (年份归一化后的数据)

p=[ ]

输出样本观测值(对应1996-05年的总人口归一化后的数据):

T=[ ]

采用神经网络模型进行运算，系统仿真

产生输入数据的收敛结果见图示：

图6：BP训练函数

表13：BP算法的结果：

年份2006200720082009{

2010

201120122013

人口数（万131340131940132490133010133490133940；

134360

134750五模型优缺点的评判

在上文中，每个模型的后面，针对该模型的优缺点本文都做了深刻地评判，此时就不再重复赘言了，却还没有从宏观角度出发，对本文的所有模型进行整体的优缺点的总评判。

优点：

1、具有很好的创新性，在对传统模型的理解的基础，取模型之长，利用熵权法

对模型进行组合预测，大幅度提高了预测准确度；

2、本文的思路宽阔，在不同时期，建立起不同的模型，能够与实际紧密的联系，

结合当前具体国情，对问题进行求解，使该模型具有很好的推广性和通用性；

3、模型的的计算采用专业软件求解，例如Matlab软件，spss软件，dps软件等，

数据可信度较高。

4、%

5、对于题目附录里为涉及到的数据，均到“中国统计局”下载官方数据加以补

充，并且对论文中涉及到的众多影响因素进行了量化处理，使得论文的说服里更强，实际性更高。

缺点

1、影响人口增长预测的动态因素很多，而且不可能都能波及到，所以模型与实

际还是有一些距离的；

2、不同模型在相应的时间阶段具有很高的预测能力，但是一旦脱离了这个时间

阶段，模型的预测能力就会回落。

六全文总结

人口预测就是根据一个国家、一个地区人口的现状，考虑到社会政治经济条件对人口再生产和转化的影响，分析其发展规律，运用科学的方法测算未来某个时期人口的发展状况。人口的预测包括通常指的是中短期预测和长期预测。为了能够提供合理地预测值，本文进行了深刻地研究，建立了4个模型，进行全方位的深刻讨论。

通过，灵敏度的分析比较，模型一适合中短期的预测，模型二综合面广，考虑全面，在本文假设的条件下，就符合中国人口特点，例如，老龄化进程加速、出生人口性别比持续升高，以及乡村人口城镇化都作为模型中的因子元素，对中国的人口未来长期发展状况进行了科学性的预测。

本论文的创新性和技术性主要表现在这几个方面：

1、"

2、本文为了提高预测的精确度，对于各种的传统预测方法，有针对性的做了筛

选，通过权重关系，建立起了组合模型，特别地在权重问题上，采用了熵权法分配权重，思路巧妙，可以为以后提供合理参考。

3、本文建立BP神经网络模型，无需进行模型假设，同时能利用模型自身对复

杂的非线性曲线进行拟核，利用拟核函数对人口增长趋势作出了合的预测。

4、本文与计算机实用软件，计算机编程紧密的结合在了一起，在本文中运用了

诸如spss，dps等一些统计性软件，同时利用Matlab进行了一些编程，大大提升了数据的处理能力，也使得数理统计变得不在十分棘手了。

5、本文的模型具有很好的推广性，而且在其它领域发挥很好的效果。

七相关建议

一、最近几年中国人口发展特点