阶梯整群随机试验

王孟，王春娟，李子孝，3，谷鸿秋

随机对照试验（randomized controlled trial，RCT）通常应用于新药疗效评价，是目前评价干预措施效果的金标准[1]。在RCT研究中，单个受试者被随机分配到干预组或对照组，但在一些政策研究中个体化随机不易实现，因此需要实施整群随机对照试验（cluster randomized trial，CRT），以整群作为干预对象。例如面向全体人员的健康教育干预中，健康知识通过电视、广播等方式进行传播，整个群体都将被干预，而个体化的随机则难以实施[2]。

CRT研究设计虽然更容易对群体施加干预，但其设计更加复杂、所需样本量更多、人力与物力花费大。阶梯整群随机试验（stepped wedge cluster randomized trial，SW-CRT）是一种新型的实用性CRT设计，不需要单独设置对照，各整群在不同阶段随机进入干预组，直至所有整群均接受干预。SW-CRT能够在资源有限的情况下分步实施干预，既可以保持CRT研究针对整群开展干预的优势，又能够解决实施现场可行性问题并避免研究的伦理问题[3]，因此SW-CRT在医疗卫生服务和公共卫生政策评价领域得到广泛应用[4-5]。本文对SW-CRT的基本原理、类型、研究设计、样本量计算、统计学方法和报告规范等方面进行介绍，为开展SW-CRT研究提供参考。

与RCT不同，SW-CRT不设置专门的对照，类似于交叉设计，即不同的群在不同的时间点交叉，随着试验的进行，每个群都将接受干预。在整个观察期内，将未接受干预的时间段定义为对照期，接受干预的时间段定义为干预期。研究起始阶段所有整群均处于对照期，不接受干预，每隔一定时间间隔（步长）随机抽取1组整群进行干预，进入干预期。在研究结束时所有群均接受过干预。在研究开始前，需设计连续两次或多次测量，第1次数据采集在所有整群均未接受干预时，最后1次数据采集在所有整群均接受干预后。图1为SW-CRT的示意图，从第1观察期开始，每个观察期均有1组整群进入干预组，每个观察期前后均进行1次测量，当有足够观察期时，研究设计整体形状为阶梯形，因此定义为SW-CRT。

图1 阶梯整群随机试验设计示意图

根据患者资料获取来源，SW-CRT分为横断面设计研究、封闭队列研究和开放队列研究。横断面设计研究中，每个观察期在研究整群中随机抽取一定数量的研究对象进行研究，不同观察期的研究对象不同；
固定队列在研究开始前就确定受试者，并在不同观察期之间对相同的患者进行重复测量，研究期间不允许新的患者纳入队列，也不允许研究对象在不同群组之间进行转换，因此不建议将严重疾病或死亡等结局作为固定队列的结局指标，否则可能导致健康幸存者偏倚[6]；
开放队列研究可以补充其他符合纳入、排除标准的研究对象，试验中允许有少数研究对象发生群组间的转换[3，7]。目前对于SW-CRT研究方法的探索多集中在横断面设计研究，其他类型的研究设计暂无明确的方法。

在实际应用中，SW-CRT有2种特殊设计：第1种是在研究开始阶段所有整群都接受干预，每个观察期随机1组整群停止干预进入对照组，直到所有整群都进入对照组（图2A）[8]；
第2种是某组整群在整个研究期内均处于干预组或者对照组（图2B～C）[9]。

图2 两种阶梯整群随机试验的特殊类型

SW-CRT是RCT的一种特殊设计，需要满足RCT研究设计的研究对象、干预、对照、结果和研究设计（population，intervention，comparison，outcomes and study design，PICOS）原则[10]。除此之外，SW-CRT研究设计中需要特别注意整群数量、整群大小、阶梯数、观察期持续时间（步长）以及每个阶梯随机纳入的整群数等。在SW-CRT研究中，P不仅是指纳入的人群，还包括整群，即开展研究的单位，如医院、社区、学校等。研究对象包括整群和个体，是整群随机对照研究与传统随机对照研究最根本的区别。R是指随机化方式，SW-CRT无须进行个体化随机，而是将群组随机分配到不同阶段接受干预。阶梯数即研究设计的阶段数，相同样本量下阶梯数越少统计效能越低，但较多的阶梯数消耗的人力、物力及财力更高，研究时间更长。制定合理的研究阶梯，需要根据研究条件，权衡时间与经济的关系，尽可能提高统计效力。另外，观察期持续时间也是研究设计需要考虑的重要因素，由于干预并非即时起效，通常在整群接受干预后，需要一定的延迟时间，研究设计时需要考虑延时效应，研究设计的观察期持续时间需要大于干预延迟时间。

SW-CRT样本量的计算通常有2种情况：①已知每个群样本量大小（假设每个整群样本量相同）及阶梯数，计算研究所需的群数；
②已知研究的群数及阶梯数，计算每个群样本量大小及总样本量。表1总结了SW-CRT样本量计算所需的参数。

表1 阶梯整群随机试验样本量计算所需的参数

在第1种情况下，每次观测每个整群的样本量m和阶梯数t固定，首先计算研究的设计效应（公式1）：

总样本量为（公式2）：

其中NI为完全随机设计的2个总体率假设检验时的样本量。

此时，可以计算出A情况下总整群数k（公式3）：

然后根据表1计算每个阶梯的整群数g。

在第2种情况下，总整群数和阶梯数t 固定，根据表1中N的计算公式，和上述公式1、公式2，可以得到以下等式（公式4、公式5）：

将上述等式转换为二元一次方程后[11]，根据二元一次方程求根公式，可以计算出每次观测每个整群的样本量m为（公式6）：

其中：

则研究总样本量为（公式10）：

Hemming[12]将各种CRT设计样本量计算进行了可视化展示，可以更方便、直观地计算出CRT设计所需的样本量（图3）。此外，PASS软件提供了SW-CRT的样本量计算方法，以PASS 15为例，具体方法为“Cluster-Randomized”-“Two Proportions”-“Test（Inequality）”-“Test for Two Proportions in a Stepped-Wedge Cluster-Randomized Design”，根据上述两种情况输入参数即可（图4）。

图3 阶梯整群随机试验样本量计算示例[12]

图4 阶梯整群随机试验样本量计算示例（PASS 15）

传统的RCT研究是以个体为基础进行随机与干预，因此不需要考虑群体效应，分析方法较为简单。CRT在传统RCT设计基础上，以整群为基础进行随机和干预，因此统计分析时需要考虑群集性，不仅需要比较个体和整群水平的基线资料，还应当给出组内相关系数。SW-CRT同样以整群为基础进行随机和干预，但需要进一步考虑阶段数，在统计分析时可以采取同期比较和前后比较2种方式，前后比较中需要考虑结局指标的时间变化趋势[13]。

在平行设计CRT研究中，统计分析时将接受干预的整群与未接受干预的整群进行比较。但在SW-CRT中，每个整群都是首先进入对照组，然后再进入干预组，因此试验是将暴露阶段和非暴露阶段进行比较。与标准RCT研究相同，SW-CRT需要根据患者的暴露情况比较患者的基线信息，从而判断两组是否均衡可比。根据意向性分析（intention to treat，ITT）原则，对照与干预需要根据研究设计时随机分组的情况进行划定，与在设定的时间内对照组是否接受干预而进入干预组无关。有些研究要兼顾ITT原则与实际干预状态进行分析[14]。

在SW-CRT研究中，结局的评估发生在干预之后的一段时间，在这段时间内接受干预的整群数量会逐渐增加，这意味着对照组平均入组的时间要比干预组早。此外，在进行政策和服务相关的干预研究中，提供服务的过程中可能会有其他的外部变化，也会对关注的结局产生影响。因此，时间因素可能与研究的暴露或结局有关，需要在数据分析中作为混杂因素进行校正。可以通过广义线性混合模型（generalized linear mixed model，GLMM）或广义估计方程（generalized estimating equations，GEE）来校正不同观察期和整群的系统差异。2种模型都可以处理连续和分类结局，模型中都需要纳入阶梯项以控制时间效应。不过2个模型对于“群组”效应的处理方式不同，GLMM采用随机效应，而GEE采用相关系数矩阵。尽管组内相关系数和时间效应并不能直接解释干预的效果，但通常需要在结果部分进行报告，以便了解研究中群聚效应和时间效应可能带来的潜在混杂偏倚，惠及未来研究。

其他分析策略包括整群内比较，将SWRCT看作一系列平行设计进行整群随机对照[15]。SW-CRT还可以用于评估干预效果是如何随时间而变化的，尤其是当干预需要一定的启动时间才能充分发挥作用。这种情况下，整群暴露与干预的时长可以作为修正效应纳入模型中。此外，通过比较整群内暴露期和非暴露期的情况，SW-CRT还可以用于检验干预对于整群间影响的异质性。尽管这种检验的效度不足，但仍可以作为次要结局指标进行分析。

案例1：医疗质量改进措施能否改善急性冠脉综合征（acute coronary syndrome，ACS）患者的临床结局。观察性研究证实改进医疗质量措施可以改善ACS的临床结果，但目前尚未在随机临床试验中得到证明。2011年10月—2014年12月，我国15个省、市、自治区的101家二级医院，开展了一项整群随机试验，探索基于临床路径的综合医疗质量干预措施是否可以改善中国资源受限地区住院ACS患者的临床结果。研究采用CRT，以住院期间的主要不良心血管事件（包括住院期间的全因死亡、心肌梗死、再次心肌梗死和非致命性卒中）为主要终点指标。次要终点包括17个预先确定的关键绩效指标（key performance indicator，KPI）和根据KPI计算的1个复合指标——KPI综合评分。研究第1个阶段（6个月）所有医院均不干预（对照组）；
随后，将所有参加医院随机分为4组，每6个月为1个阶段，随机启动1组医院开展干预。研究结束时，所有参加医院均接受了干预。研究累计纳入各类ACS患者29 346例，其中14 809例（50.5%）为对照组，14 537例（49.5%）为干预组。经校正群组和时间效应后，2组患者住院期间的不良心血管事件发生率分别为4.4%（对照组）和3.9%（干预组），差异没有统计学意义。次要终点指标KPI综合评分在干预组为0.69分（满分为1.0），显著高于对照组的0.61分，差异没有统计学意义。该研究是全球在改进ACS医疗质量方面第1个以临床终点为结局的大型随机对照临床试验，对我国医疗改革和医疗质量促进行动具有重要的参考价值[4]。

案例2：新生儿重症监护病房教育计划能否有效降低患儿不良事件风险。新生儿重症监护病房（neonatal intensive care unit，NICU）患儿发生不良事件的风险较高，医疗和辅助医疗教育方案减少这些风险的效果尚未被有效评估。2015年11月23日—2017年11月2日，法国克雷泰尔社区医院中心团队进行了一项多中心CRT，研究将12个NICU随机分配到3个队列（每组4个病房），随后各队列逐步进入干预期，直到所有队列完成干预。研究纳入入院时胎龄不超过42周的新生儿且在NICU住院至少2 d，每个干预阶段进行为期4个月的多方面课程教育。研究主要结局为不良事件发生率。结果表明，NICU的多专业安全促进计划降低了高危患者不良事件发生率，显著改善危重新生儿的临床护理结局[16]。

由于设计的特殊性，如时间混杂因素、整群相关性随时间变化、整群内沾染、治疗效果随时间的变化和不同的设计差异等，SW-CRT研究报告更加复杂[13，17]。Hemming等[17]采用德尔菲法调查及专家共识会议，制定了针对SWCRT设计的扩展声明，即CONSORT，用于将SW-CRT设计的研究报告标准化。扩展声明共包括26个条目，包括题目和摘要、背景介绍、研究设计、随机方法、结果、讨论和其他信息6个大类（表2）。

表2 阶梯整群随机试验CONSORT扩展声明条目清单

续表

与CRT研究相比，SW-CRT报告进一步进行以下拓展与修改。①在方法步骤中，研究设计里（3a）要详细介绍“群组的定义、序列数、随机分配到每个序列的群组数量、观察周期数、每个周期之间的时间间隔以及不同时期的参与者是相同的人/不同的人/两者的混合”；
②干预（5）的描述中，需要“详细描述干预措施和对照措施，包括干预措施是维持还是重复以及干预措施是在群体水平、个体水平还是两者均提供”；
③统计方法中（12a），用于比较各组主要和次要结局指标的统计方法，需要考虑时间效应、群组和重复测量；
④研究对象的招募（14a）中，需报告招募研究对象和随访时间的长短，说明具体日期，报告每一阶段的日期、干预实施起始日期以及偏离原定计划日期的情况；
⑤结局和估计中（17a），“对每个主要和次要结局指标报告各组的结果、效应估计值及精确度（如95%CI），报告分析中估计的相关系数（或协方差）和时间效应”。

SW-CRT是政策与服务研究方向的一种新型整群随机试验，常用于评价“利大于弊”的干预措施，在避免群内沾染的同时，也避免了可能的伦理问题，以及平行设计中由于资源受限无法一次性全面开展干预的问题。SW-CRT比传统的研究设计更复杂，试验周期更长，统计学问题也更复杂。除此之外，还有很多研究设计和统计学方面的问题仍未得到很好的解决，如基于队列研究的阶梯设计（随时间整群及个体发生变化）、整群内的整群设计（如医院内的病房）、2组以上的研究设计、限制性随机、整群大小及阶梯数大小变化的效应及混合研究设计等。

猜你喜欢整群样本量群组基于整群随机样本评估的简单随机抽样精度探讨现代计算机(2022年14期)2022-09-20医学研究中样本量的选择内蒙古统计(2021年4期)2021-12-06夏季中蜂飞逃的原因中国蜂业(2019年9期)2019-09-21航空装备测试性试验样本量确定方法测控技术(2018年4期)2018-11-25RSMSobol法的参数群组敏感性快速定量评估分析水利技术监督(2017年6期)2017-12-19Sample Size Calculations for Comparing Groups with Binary Outcomes上海精神医学(2017年5期)2017-11-29为什么整群猪围攻一头猪农村农业农民·B版(2017年2期)2017-03-11基于统计模型的空间群组目标空间位置计算研究山西大同大学学报(自然科学版)(2016年6期)2016-01-30——医生交流技巧培训和C反应蛋白床边检测的使用对呼吸道感染患者的影响：对整群随机试验的3.5年跟踪">WONCA研究论文摘要汇编
——医生交流技巧培训和C反应蛋白床边检测的使用对呼吸道感染患者的影响：对整群随机试验的3.5年跟踪中国全科医学(2013年29期)2013-01-25自适应样本量调整中Fisher合并P值法和传统检验法的模拟比较统计与决策(2012年14期)2012-07-25

推荐访问:阶梯随机试验