基于分层线性模型的我国城市居民体育锻炼行为研究分层线性模型

　　收稿日期：2011-04-26 　　基金项目：陕西省教育厅科学计划研究项目(项目号：2010JK048)。　　作者简介：宁科(1979-)，男，讲师，硕士，研究方向：体能训练。
　　
　　摘要：使用CGSS2006城市问卷部分数据，采用分层线性模型对我国城市社区居民的个体体育行为进行了研究。研究认为，个体层自变量个人每周工作时间、受教育年限、个人年收入与高层自变量家庭月收入共同作用影响个体体育锻炼行为的发生；此外在排除个体层自变量的影响，家庭层的家庭月支出对个体体育锻炼行为的发生有决定性的影响。
　　关键词：社会体育；体育锻炼行为；城市社区；分层线性模型；中国
　　中图分类号：G80-05 文献标识码：A 文章编号：1006-7116(2012)02-0049-06
　　
　　A study of the physical exercising behaviors of urban residents in China based on a hierarchical linear model
　　NING Ke1，MA Yun-xia2，LI Xiao-tian3
　　（1.Department of Physical Education，Shanxi Institute of Education，Xi’an 710061，China；
　　2.School of Physical Education，Yili Normal University，Yili 835000，China；
　　3.Capital University of Physical Education and Sports，Beijing 100191，China）
　　
　　Abstract: By using some data derived from CGSS2006 urban questionnaires, and by adopting a hierarchical linear model, the authors studied the individual physical exercising behaviors of residents in urban communities in China, the drew the following conclusions: the weekly working times, educated years, individual annual incomes of individuals as independent variables in the individual hierarchy, and the monthly incomes of families as independent variables in the higher hierarchy, jointly affected the occurrence of individual physical exercising behaviors; in addition, exclusive of the influence of independent variables in the individual hierarchy, the monthly expenses of families in the family hierarchy had decisive influence on the occurrence of individual physical exercising behaviors.
　　Key words: social sports；physical exercising behavior；urban community；hierarchical linear model；China
　　
　　
　　在社会科学中，很多研究问题都体现为多水平、多层的数据结构。其中最为典型的例子就是在教育研究中。同样，人们体育锻炼行为的发生不仅受到个体水平层变量的影响，还受到高层家庭变量的影响。现有文献中的城市居民体育锻炼行为研究相当少，仅有的文献研究脉络为在个体自变量的基础上选取自变量建立统计模型分析，但将不同类型的影响因素纳入同一模型进行回归分析就可能产生分析结果异常等问题，原因在于影响人们体育锻炼行为的因素之间可能存在分层结构现象，很可能导致生态谬误的风险[1-2]。影响人们体育锻炼行为的分层结构决定了体育锻炼行为的产生与否，单个人的体育锻炼行为必然会受其个体的社会经济、教育等因素的影响，同时更高层次的家庭组织和社区环境、家庭经济状况、生活区域环境质量等也可能会对其体育锻炼行为产生影响。
　　分层线性模型不仅在技术上是先进的，而且比一般线性回归具有更大的包容性。一般意义上回归分析实际上仅能对单一分析单位进行处理[3-4]，开展变量之间关系的研究。大多数其他统计方法也都默认这种平面数据结构。这类统计方法背后存在一个重要假定，即各案例之间都是完全独立的。但这种假定与社会现实之间有差异，因为通常这些案例隶属于不同的组群。不同组群之内的案例相互影响、并不独立，往往存在很强的同质性，又可称为组内相关。各组群之间又往往存在着明显的差别[5-6]。本研究采用分层模型分析方法，以分层线性模型中随机效应模型为基础，在此基础上延伸随机系数模型与截距、斜率模型，重点研究以下几个问题：个体的体育锻炼行为是否受到家庭层因素的影响；个体水平的自变量与家庭层的自变量对个体体育锻炼行为产生的影响是否有交互作用；家庭层自变量与个体体育锻炼行为之间是否有相关关系。通过研究以期为提高我国城市社区居民体育锻炼行为研究提供理论上的帮助。
　　
　　1 研究对象与方法
　　1.1 问卷调查
　　该项目本次调查采用分层的4阶段不等概率抽样：区(县)、街道(镇)、居委会、住户和居民，在全国28个省市抽取10 000个家庭户，然后在每个被选中的居民户中按一定规则随机选取1人作为被访者。本研究问卷来自CGSS2006城市问卷，问卷由香港中文大学与中国人民大学共同设计。该问卷经过权威专家设计，并经过科学验证，目前属于国内先进的综合社会学调查问卷。问卷中体育锻炼的题项调查意在统计过去一年中有无体育锻炼行为的中国国民。问卷的原题目为：“你在闲暇时间中，从事体育锻炼的活动频率是”，选择答案为：1)差不多每天；2)一周几次；3)一月几次；4)一月一次；5)一年几次；6)从不。将答案题项进行整合，一周几次、一月几次、一月一次、一年几次整合为锻炼，“从不”定义为不锻炼。以此纳入模型进行运算。分层模型分析采用HLM 6.06软件。本研究根据研究设计要求对数据进行删失处理，最终保留2 647个样本，其中女性样本1 276个(占48.2%)，男性样本1 371个(占51.8%)。
　　1.2 研究假设
　　人们体育锻炼行为的发生受到很多变量的影响。在已有的研究文献中有学者认为城市各阶层居民体育锻炼参与程度与其阶层存在显著性差异，阶层越高参与度越高；其次，有研究者从家庭环境视角发现，父母受教育程度越高大学生余暇体育锻炼行为越低；父母参加锻炼越高对大学生余暇体育锻炼行为影响越大[7-9]。可见，当前研究文献没有涉及个体体育锻炼行为的发生是否受教育年限、每周工作时间、个人年收入等的影响。其次，当前研究仅是个体水平面的数据研究，基本未涉及高层变量对低层――个体层体育锻炼行为发生是否有影响的研究。最后，对于多个自变量共同影响因变量研究中，基本未涉及自变量之间的交互作用对因变量的影响，特别是高层与低层的交互作用对因变量的影响。基于以上分析本文设立如下假设：
　　假设1：性别对个人体育锻炼行为有影响，且回归系数受到高层自变量的影响；
　　假设2：个体体育锻炼行为受教育年限影响，且回归系数受到高层自变量的影响；
　　假设3：周工作时间对个人体育锻炼行为有影响，且回归系数受到高层自变量的影响；
　　假设4：个体体育锻炼行为受到个人年收入影响，且回归系数受到高层自变量的影响；
　　假设5：个体体育锻炼行为受到家庭全年总收入的影响；
　　假设6：个体体育锻炼行为受到家庭年教育费用的影响；
　　假设7：个体体育锻炼行为受到家庭月基本生活费的影响；
　　假设8：个人体育锻炼行为受到家庭年医疗费的影响；
　　假设9：家庭月支出对个体体育锻炼行为具有直接影响(截距)。
　　1.3 研究模型设计
　　1)研究变量选择。
　　本研究在个人层面上的自变量为个人年收入、个人每周工作时间、性别、个人受教育年限；家庭层面变量为家庭年收入、家庭月基本生活费、家庭年医疗费、家庭年教育费用(表1、2为各层自变量的描述统计结果)。
　　
　　2)随机效应的单因素方差分析。
　　本文所涉及的因变量是指体育锻炼行为，其中“0”为不锻炼，“1”为锻炼。第一步是应用分层模型分析随机效应的单因素方差，主要步骤：在模型各层中不插入任何解释变量，对分层数据进行无条件方差分解分析，通过分析结果可以将因变量的总方差分解到模型的不同层，观察两层随机方差分别在总方差中的比例分布，便可以确定进行分层分析的必要性[10]。采用HLM软件来进行人们体育锻炼的分层分析。以本研究为例，层1为个人，层2次为家庭，层1的模型与传统的回归模型类似，与一般回归方程有区别的是，每个个人的回归方程的截距和斜率都直线依赖于层2次变量(家庭收入、支出等)，这样就构成了个人-家庭2层模型。
　　层1模型(个人层)：
　　Prob(twosport=1|β)=φ
　　log[φ/(1-φ)]=η
　　η=β0
　　层2模型(家庭层)：
　　β0=γ00+μ0
　　两层模型整合为：η=γ00+μ0
　　其中，η代表因变量，twosport代表体育锻炼行为，φ代表参加体育锻炼的概率，β代表回归系数，log代表取对数，μ0代表残差，γ00代表截距。
　　层1模型中由于因变量η取值1时代表参加锻炼，所以模型中的φ就是参加体育锻炼的概率。这说明体育锻炼行为的总方差中高层变量方差(即层2家庭方差)所占比例越大，用高层变量来解释的可能性就越大。
　　ICC1=
　　其中(τ00代表随机回归，σ2代表方差。)
　　组内相关数ICC1=0.21＞0.05，说明有21%的变异来自家庭(即组间变异)，79%的变异来自个体变量，说明数据存在层级效应[11]。根据研究需要在模型中的两层纳入自变量后的全模型进行运算。
　　
　　2 研究结果与分析
　　2.1 带随机效应的单因素方差模型
　　全模型(即层1与层2叠加起来的组合模型，本文中主要用于研究层1因变量怎样受到层2和层1的自变量的影响)，在层1与层2纳入了研究所涉及的自变量。该模型所构建的研究假设主要指：认为人们的体育锻炼行为的发生是由于分属于不同经济收入水平的家庭类型，其体育锻炼行为的产生存在差异。从统计上分析这种差异的表现就是家庭支出的不同会导致个体体育锻炼行为状况存在显著不同。全模型如下：
　　层1模型(个人层)：
　　Prob(twosport=1|β)=φ
　　log[φ/(1-φ)]=η
　　η=β0+β1×gender+β2×eduyear+β3×
　　weekhours+β4×indincome
　　层2模型(家庭层)：
　　β0=γ00+γ01×famincome+γ02×fammof+γ03×
　　famhos+γ04×famedu+μ0
　　β1=γ10+μ1
　　β2=γ20+μ2
　　β3=γ30+μ3
　　β4=γ40+μ4
　　模型组合：
　　η=γ00+γ01×famincome+γ02×fammof+γ03×
　　famhos+γ04×famedu+γ10×gender+γ20×eduyear+
　　γ30×weekhours+γ40×indincome+μ0 (1)
　　其中，gender代表性别、eduyear代表受教育年限、weekhours代表每周工作时间、indincome代表个人年收入、twosport代表体育锻炼行为、famincome代表家庭收入、farmhouse代表家庭医疗费用、famedu代表家庭年教育支出、fammof代表家庭月支出。上述变量除性别为分类变量外，其他全部为连续变量。γ00是个体水平模型的截距，由于连续变量都按家庭的平均值对中，因此截距在这里代表着各家庭的个人体育锻炼行为。β0代表自变量的截距，β系数与一般回归系数的解释方式相同。引入高层自变量――家庭层的家庭年收入、家庭月基本生活费、家庭年医疗费、家庭年教育费用的自变量之后，家庭月基本生活费显著，其他高层自变量对因变量不显著。方差成分由层1模型的0.130 51减少到0.020 18，从纳入家庭层的自变量与个体层的自变量来说，模型的方差降低，说明模型分层效应明显。
　　假设认为，城市社区中人们体育锻炼行为是由个人特征和所处背景共同作用的结果。家庭的背景变量包括该家庭的年收入、月支出、家庭年教育支出等这可以作为代表个体所在家庭的经济和社会状况指标。家庭收入的标准差(s=26 500.43)其实都是比较大的，反映出城市社区中的家庭经济不同。
　　从表3发现高层变量中仅有家庭月支出显著，其他变量不显著。层1中的性别与个人年收入不显著对个体体育锻炼行为没有影响，这一点与前人研究结果一致。个人的受教育年限与每周工作时间对体育锻炼行为的发生有显著影响。随机效应的单因素方差模型中的β0是体育锻炼行为发生比。模型参照类(虚拟变量取0值)为不锻炼。个人层回归方程的截距值取决于高层自变量――家庭月支出(即β0=γ02×fammof)，β0说明家庭支出越大其体育锻炼行为的发生比越高。γ02对应的发生比为0.918，表明在控制其它变量不变当家庭月支出提高1元钱(即从0变为100%时)，它导致社区居民体育锻炼行为发生比变化0.918倍，这是家庭月支出对体育锻炼行为发生的直接影响的一种统计归纳。这里并不是说家庭月支出越多就是人们参加体育锻炼的原因，而是说在存在体育锻炼行为偏好为既成事实的条件下，家庭月支出提高，个人就容易参加体育锻炼。从模型回归系数(表3中回归系数――0.009 0)为正值即提高家庭月支出可以促进社区居民体育锻炼行为发生比的可能性会提高。个体层的自变量，受教育年限与每周工作时间显著(P 　　
　　除掉不显著的变量后，模型重新整合为：
　　η=γ00+γ01×fammof+γ20×eduyear+γ30×
　　weekhours+γ40×indincome+μ0
　　2.2 以截距和斜率为结果的模型
　　以模型为基础，进行更深一步的分析。一般线性回归中对于截距及斜率的解释力度非常小，截距只是作为一个常数项，常数项反映在坐标就是最小二乘的直线在y轴上的高度，而分层线性模型通过数学理论将截距的解释分解到层2的自变量进行解释，斜率也是分解到层2的自变量进行解释[12-13]。此处在单因素方差模型的基础上重点对截距及自变量的斜率进行分析。
　　层1：
　　twosport=β0+β1(eduyear)+β2(weekhours)+
　　β3(indincome)+r (2)
　　层2：
　　β0=γ00+γ01(fammof)+μ0
　　β1=γ10+γ11(fammof)+μ1
　　β2=γ20+γ21(fammof)+μ2
　　β3=γ30+γ31(fammof)+μ3
　　混合模型：
　　η=γ00+γ01×fammof+γ10×eduyear+γ11×weekhours×
　　fammof+γ20×indincome+γ21×indincome×fammof+
　　γ30×eduyear+γ31×eduyear×fammof+μ0++μ1×
　　eduyear×μ2×indincome+μ3×weekhours+y (3)
　　其中，γ01、γ02、γ11、γ21、γ31代表截距。
　　一般线性回归中截距包含很多信息。对于本研究中的分层线性模型中的截距解释就是，为何不同家庭中的个人体育锻炼行为发生率不同。那么分层线性模型就会对截距进行解释，解释是通过将截距纳入层2的家庭月支出与其斜率即自身的截距来分解层1截距，表4中固定效应模型表示在模型(2)中的层1自变量的截距β0，这在分层模型中属于截距斜率模型。通过层2的平均家庭月支出来进行预测，模型运行显示家庭月支出与个人体育锻炼行为发生正相关，家庭月支出γ01=0.005 2，P

推荐访问:分层线性城市居民体育锻炼