影响因素对煤矿百万吨死亡率的回归分析及其应用_张超_图文.doc
文章编号 1673-193X 2005 -06-0091-05 收稿日期 2005-10-25 影响因素对煤矿百万吨死亡率的回归分析及其应用 张 超 1, 陆愈实 1, 章 博 2 1. 中国地质大学 武汉 研究生院 , 武汉 430074 2. 石油大学 华东 机电工程学院安全工程教研室 , 东营 257062 摘 要 本文对煤矿百万吨死亡率关于其影响因素作回归线性假设 , 以美国 1982十年 间的煤矿死亡事故数据为例 , 利用 SPSS 多元统计软件中的逐步回归分析法 , 死亡率关于所选出的两个显著影响因子的二元线性回归方程 , 设检验 , 可用于百万吨煤死亡率的预测与控制 。 关键词 百万吨死亡率 ; 回归分析 ; 线性回归 中图分类号 X928.01 R of relative factors to million death rate in coal mine ZHAN G Chao 1, L U Yu -shi 1, ZHAN G Bo 2 1Graduate School of the China University of G eosciences , Wuhan 430074,China 2Safety Staff Room of the Mechanical and E lectric C ollege of the University of Petroleum East China ,Dongying 257062,China Abstract Based on the assumption of linear regression of the million tons death rate about relative factors in coal mine and taking the example of the death data between 1982and 1991in America , this paper generates the du 2alistic linear regression equation of million tons death rate about its two noble factors. And the result indicates that all the assumptions of the regression equation are reasonable. So the application of the regression equation to predict and control the million tons death rate in coal mine is feasible. K ey w ords million tons death rate , ;regression analysis ;linear regression 1 前言 煤矿安全是我国安全生产所关注的重点 , 煤矿 中的安全事故所造成的损失往往是比较严重的 , 而 百万吨死亡率是表征煤矿安全生产的一个重要参 数 。 最大限度的降低煤矿生产的百万吨死亡率是 煤矿安全工作者的重要研究课题之一 。查明煤矿 百万吨煤死亡率的主要影响因素 , 以及诸因素与百 万吨死亡率的关系是非常必要的 。 本文利用回归分析方法分析百万吨煤死亡率 及其影响因素的内在规律 , 以便对百万吨煤死亡率 进行较为准确的预测与控制 。 2 回归分析简介 回归分析是统计学的一个重要分支 , 它基于观 测数据建立变量间的某种依赖关系 , 分析数据的内 在规律 , 并可用于预报 、 控制等方面 。 回归分析的基本思想以及 “回归” 名称来源于 第 1卷 第 6期 中 国 安 全 生 产 科 学 技 术 Vol. 1 No. 62005年 12月 Journal of Safety Science and Technology Dec. 2005 英国统计学家 F. G alton 1822-1911 。高尔顿在 研究父母身高与其子女身高的遗传问题时 , 发现遗 传性状有向中心回归的现象 , 即高个子父母 , 其后 代平均也比较高 , 但不如其父辈那么高 ; 而矮个子 的后代相对较矮 , 却比其父辈要高 , 说明子代的平 均身高向中心 “回归” 了 。这是回归一词最初在遗 传学上的含义 。 而经过近两百年的发展 , 回归的现 代含义比其原始含义要广得多 , 从经典方法到现代 方法 , 研究内容非常丰富 , 大致包括一下几个部分 线性回归 、 非线性回归 、 含有定性变量的回归 。 本文采用多元线性回归中的逐步回归方法 , 利用 SPSS 多元统计软件求解。 逐步回归在进行自变量选 择时优于其他的回归方法 如前进法、 后退法等 , 其 基本思想是有进有出 , 具体做法是将观测变量一个一 个引入回归方程 , 引入变量的条件是通过了偏 F 统计 量的检验。 同时 , 每引入一个新变量后 , 对已入选方 程的老变量进行检验 , 将检验认为不显著的变量剔 除 , 如此往复 , 直到既不能引入新变量 , 又不能剔除老 变量为止 , 便得到最优回归模型。 3 回归分析过程 3. 1 实例数据 我们选用美国 19821991十年间的煤矿死亡 事故数据进行回归分析 , 1。该表中 商品煤产量 、 职工总人数 、 20, 1因素 年份 19831985198619871988198919901991 0. 0850. 1310. 0720. 0890. 0630. 0450. 0690. 0580. 056商品煤产量 8. 197. 808. 898. 868. 889. 179. 509. 8010. 359. 96职工总人数 人 217117175642177848169281154645142667135366131497131306120602煤矿死亡总人数 人 115661176479584368605620万工时死亡率 0. 07 0. 05 0. 07 0. 04 0. 06 0. 04 0. 03 0. 05 0. 05 0. 05 3. 2 逐步回归分析 采用 SPSS12. 0版本 , 首先输入实例数据 , 点选 SPSS 视窗中的 Analyze → Regression → Linear , 出现 图 1所示的对话框 将百万吨死亡率选入因变量 Dependent 的方 框中 , 同时将其他四个因子选入自变量 Indepen 2dent s 的 方 框 中 , 再 在 下 拉 框 中 选 择 Stepwise 逐步回归 , 最后在 “ statistics ” 、 “ plots ” 、 “ save ” 和 “ options ” 中选择一些选项 , 最后点击 “ O K ” 即可作线性回归分析 。 首先 检 验 十 组 观 测 值 的 学 生 化 删 除 残 差 S D R i , │ S D R i │ 3的观测值即可定为异常 , 其 SPSS 输出值如下表 2。 表 2 观测值的学生化删除残差 i 1i 2i 3i 4i 5i 6i 7i 8i 9i 10 4. 11 0. 31-1. 97-0. 79-0. 67-0. 550. 44-0. 581. 12 0. 51 图 1 SPSS 线性回归视窗框 可见 , 第一组观测值异常 , 删除之后重复上述 回归分析 , 输出结果如下 ・ 29・ 中 国 安 全 生 产 科 学 技 术 第 1卷 De scriptive Statistics Mean Std. Deviation N 百万吨死亡率 0. 074220. 0254119商品煤产量 9. 24560. 758829职工总人数 148761. 5621320. 6139死亡总人数 67. 8920. 8419工时 20万 死亡率 0. 04890. 011679 这里给出了变量的样本均值 Mean 和标准差 Std. Deviation , 即 Standard Deviation 。 Correltions 百万吨 死亡率 商品煤 产量 职工总 工时 20万 死亡率 Pearson Correlation 百万吨死亡率 商品煤产量 职工总人数 死亡总人数 工时 20 1. 000 -0. 523 0. 768 973 0. -0. 523 - -0. 159 -0. 000 0. 627 0. 384 -0. 316 0. 627 1. 000 0. 889 0. 844 -0. 159 0. 384 0. 889 1. 000 Sig. 1- 死亡总人数 工时 20万 死亡率 0. 000 0. 074 0. 008 0. 000 0. 002 0. 074 0. 000 0. 002 0. 203 0. 342 0. 008 0. 002 0. 000 0. 035 0. 154 0. 000 0. 203 0. 035 0. 000 0. 001 0. 002 0. 342 0. 154 0. 001 0. 000 这里给出了变量之间的简单相关系数 。 Variables Entered/Removed a Model Variables Entered Variables Removed 1死亡总人数 Stepwise Criteria Probability -of -F -to -enter 0. 100 . 2商品煤产量 Stepwise Criteria Probability -of -F -to -enter 0. 100 . 这里给出了模型选入的变量及变量进入准则 。 Model Summary C Model R R Square Adjusted R Square Change Statistics df 1df 2Sig. F Change Durbin -Watson 10. 973a 0. 9470. 940170. 000 20. 999b 0. 9990. 998160. 0001. 688 a. Predictors Constant , 死亡总人数 b. Predictors Constant , 死亡总人数 , 高品煤产量 c. Dependent Variable 百万吨死亡率 ・ 3 9・ 第 1卷 中 国 安 全 生 产 科 学 技 术 这里给出了回归方程的样本决定系数 R 2R Square 和 P 值 Sig. 为 Significance , 即 “ 显著性” 的缩写 以 及 D -W Durbin -Watson 检验值 。 ANOVA C Model Sum of Squares df Mean Square F Sig. 1 Regression 0. 00510. 005125. 433 0. 000a Residual 0. 00070. 000 Total 0. 00582 Regression 0. 00520. 0032375. 051 0. 000b Residual 0. 00060. 000 Total 0. 005 8 这是方差 ANOVA 分析表 , 可以看出 , 过了显著性检验 , 均方残差 Mean Square 为 0. 000, F 2375. 051, P 值为 0. 000, 说明回归方程至少在 0. 0005a Model Standardized Coefficients Std. Error Beta t Sig. Collinearity Statistics Tolerance V IF 1 -0. 0060. 007-0. 8460. 426死亡总人数 0. 0010. 0000. 97311. 2000. 0001. 000 1. 000 2 Constant 0. 0740. 00514. 0220. 000死亡总人数 0. 0010. 0000. 89758. 7140. 0000. 9001. 111商品煤产量 -0. 008 0. 001 -0. 239-15. 665 0. 000 0. 900 1. 111 a. Dependent Variable 百万吨死亡率 这个框图给出了非标准化和标准化的回归方 程 , 以及回归系数的 t 统计量检验结果 , 可以看出 非标准化的回归方程为 百万吨死 ∧ 亡率 0. 0740. 001死亡总人数 -0. 008商品煤产量 1 可以看出该方程的回归系数都是高度显著的 。 3. 3 回归方程及回归系数的显著性检验 SPSS 输出的模型概要表格 Model Summary 以及方差分析表 ANOVA 均给出了回归方程 1 的 P 值 Sig. , 为 0. 000, 即该方程至少在 0. 0005的统计意义上是显著的 。 在系数框图 Coefficients 中给出了回归系数的 P 值 , 常数项 Constant β1、 及 β2的 P 值均为 0. 000, 同样 , 回归系数至少在 0. 0005的统计意义上是显 著的 。 从而 , 通过逐步回归分析得到的非标准化回归 方程 1 及其系数都是高度显著的 。 3. 4 残差分析 SPSS 在进行线性回归分析时 , 作了回归模型的 线性假定、 误差方差齐性假设、 误差独立性假设及误 差项正态性假设 , 下面针对这几项假设进行检验。 3. 4. 1 回归函数线性诊断及误差方差齐性的检验 采用删除残差图 y ∧ -e , 如图 2所示 , 在这个散 点图中 , 点 y ∧ i -e i 大致在 e 0附近随机变化 即 无明显的趋势性 , 并在变化幅度不大 约 0. 004 的 水平带状区域内 , 因此可以认为回归函数的线性及 方差齐性的假设基本上是合理的 。 ・ 49・ 中 国 安 全 生 产 科 学 技 术 第 1卷 图 2 残差散点图 3. 4. 2 误差独立性的检验 由 SPSS 输出的模型摘要表格 ry 可见 , 回归模型的 D 文献 [1], 2, 可 。而且 , 经验表 明 , , 一般也不存在高 阶序列相关 。 即可以认为误差独立性假设成立 。 3. 4. 3 误差项正态性的检验 图 3是利用 SPSS 得到的残差的正态概率图 , 从图中看到 , 点 q i , e i 近似在一条直线上 , 残差 的实际频率与正态分布的理论频率相差不大 , 从而 可以认为误差正态性的假设是合理的 。 4 分析与讨论 本文得到的百万吨死亡率关于其影响因素的 线性回归方程 1 通过了显著性检验及各项假设检 验 , 表明该方程及其系数都是高度显著的 , 分析过 程中对其所做的各项假设都是合理的 。从而说明 百万吨死亡率关于其影响因素具有显著的线性回 归特性 。 3 得 到 的 影 响 因 素 关 联 度 数 据 见 框图 , 与文献 [2]中通过灰色关联度计 算的稍有差异 , 但是影响因素的关联程度排序却是 完全相同的 煤矿死亡总人数 20万工时死亡率 职工总人数 商品煤产量 。 而 SPSS 通过逐步回归 方法选入方程的因子是煤矿死亡总人数与商品煤 产量 , 得到的模型同样是高度显著的 , 启示我们在 进行数据统计时 , 不要忽略次要影响因素 。 参考文献 [1] 向东进 . 实用多元统计方法 . 武汉 中国地质大学出版 社 . 2004,9 [2] 章博 , 庞奇志 , 张超 . 灰色关联度在分析煤矿百万吨死 亡率影响因素中的应用 . 中国职业安全卫生管理体系 认证 . 2004,35859 [3] 耿兆瑞 . 近年来美国煤矿安全生产状况述评 . 煤炭工程 师 . 1994,4454 [4] 赖薇 . 美国煤矿 19791999年死亡事故统计 . [5] 董维武 . 美国煤矿伤亡事故及事故分析 . 中国煤炭 . 2000,269 5962 ・ 5 9・ 第 1卷 中 国 安 全 生 产 科 学 技 术