
第三节 生物统计学知识概述
统计学是一门研究数据的搜集、整理、分析的科学,生物统计学是将统计学应用于整个生物学范畴的有关研究,是为了处理生物学研究数据中的同质性和变异性的科学与艺术。其性质首先体现在资料的数字化上,即以数量反映质量的特点;其次,医学研究及其相关数据必然蕴藏着丰富的信息,生物统计学的全过程即是搜集信息、处理信息、分析信息,从而提炼新的信息的过程。在这个过程中,生物统计学完成了它的使命:从事物同质性与变异性的数量表现出发,通过一定数量的观察、对比、分析,从而揭示那些困惑费解的医学问题的规律性,也就是从偶然性(不确定性)的剖析中,发现事物的必然性(确定性),并指导医学的理论和实践。生物统计学是一门科学,必须如实地反映现状。不论是从统计分析方法的实施,还是进行科学研究的角度,目的均在于获得真实的数据,这是生物统计学的求实性。此外,统计学同时作为一门艺术,应该在统计理论的指导下,在正确运用统计学思维的前提下,针对数据特点,巧妙选用恰当的高效的统计分析方法,从而得到可靠的结果和科学的结论。
生物统计学贯穿在整个临床试验过程中,在临床试验中有着不可或缺的作用,包括如何进行试验设计,如何进行数据管理和质量控制,以及如何对数据进行加工处理三大方面的内容。原国家食品药品监督管理总局也明确提出了《药物临床试验的生物统计学指导原则》(2016年)。下面对生物统计学在药物临床试验中应用的几个重要问题做简单概述。
一、临床试验的统计设计
在启动一项临床试验时,统计学家必须同主要研究者、临床研究负责人等一起协商讨论,内容包括临床试验的方案及病例报告表(case report form,CRF)的制定,确定样本大小及随机分组方法,如何控制试验中的偏倚,确定主要指标和次要指标,是否采用复合指标、全局评价指标和替代指标,测量指标是否转换为分类指标等。在此过程中主要注意如下几个问题。
(一)随机化分组
随机化是使临床试验中的受试者在不受研究者和受试者主观意愿的影响下,有同等的机会被分配到试验组或对照组中,可以使各处理组的各种影响因素分布趋于相同或相似。随机化包括分组随机和试验顺序随机,有助于避免在受试者的选择和分组时可能导致的偏倚。试验用药物应根据试验统计学专业人员产生的随机分配表进行编码,以达到随机化的要求,受试者应严格按照试验用药物编号的顺序入组,不得随意变动,否则会破坏随机化效果。
(二)对照组的设立
一种药物的优劣只有通过对比分析才能判断,只有正确地设立对照组,才能平衡非试验因素对试验结果的影响,设立对照组时应使对照组与试验组的非试验因素尽量保持一致,从而把试验药物的效应充分显露出来。新药临床试验中常用的对照方法有阳性对照或安慰剂对照。
(三)样本量的确定
样本量是指临床试验中观察受试对象的数量,即根据研究目的,在保证研究样本具有一定代表性与可靠性的条件下所应达到的足够例数,以保证试验的统计检验有足够发现药物间差异和关联的能力。每个临床试验的样本量应符合统计学要求和国家药品监督管理部门的要求。样本量的确定要考虑试验设计的类型、主要指标的性质、临床上认为有意义的差值、检验统计量、检验假设Ⅰ类和Ⅱ类错误的概率等。样本量的具体计算方法以及计算过程中所需用到的统计量估计值及其依据应在临床试验方案中列出,同时需要提供这些估计值的来源依据。
(四)盲法的选择
盲法是指研究者应在不知道研究对象分组的前提下,完成对指标的观测、数据的收集和结论的判断。盲法是为了控制临床试验过程中和解释结果时产生偏倚的措施之一。盲法的原则应自始至终地贯彻于整个试验之中。根据设盲程度的不同,盲法分为双盲、单盲和非盲。如条件许可,应尽可能采用双盲试验。如果双盲不可行,则应优先考虑单盲试验。无论是采用盲法或非盲的临床试验,均应制定相应的控制试验偏倚的措施,使已知的偏倚来源达到最小。
(五)多中心试验
多中心试验系指由一个单位的主要研究者总负责,多个单位的研究者合作,遵循一个共同制定的试验方案完成整个试验。多中心试验可以在较短时间内入选所需病例数,且入选的病例范围广,临床试验的结果更具代表性,但影响因素亦更趋复杂。试验前对人员统一培训,试验过程要有监控措施,良好的组织、协调和培训是多中心临床试验成功的重要保证。
二、临床试验的数据管理与质量控制
无论是临床试验数据的收集,还是最后数据库的完成,均应符合GCP的规定。在临床试验数据收集阶段,根据受试者的原始观察记录,将数据正确、完整、清晰、及时地载入病例报告表。每一份病例报告表数据应采用双份独立输入,并及时进行人工或计算机逻辑检查,及时修改错误内容,修改结果应有详细记录并妥善保存。各种疑问及解答的交换应当使用疑问表,所有疑问表均应保存备查。此外,对数据要进行盲态审核。以上任何决定都需用文件形式记录下来。经盲态审核认为所建立的数据库正确无误后,对数据库进行锁定,数据库锁定后需妥善保存备查。盲态审核下所作的决定不应该在揭盲后被修改。
三、临床试验的数据统计分析
锁定的数据库交由有临床试验经验的统计专业人员进行分析,对数据进行统计分析应考虑如下几方面的内容。
(一)划分分析人群并确定数据统计分析集
用于统计的分析数据集需在试验方案的统计部分中明确定义,并在盲态审核时确认每位受试者所属的分析集。通常有三种不同人群和数据分析集。即意向治疗(intent-totreat,ITT)人群和全分析数据集(full analysis set,FAS);符合方案(per-protocol,PP)人群和符合方案数据集(per-protocol set,PPS);安全性(safety)人群和安全集(safety set,SS)。
(二)制定统计分析计划书
统计分析计划书由参与临床试验的统计学专业人员起草,经与主要研究者商议后确定,其内容比试验方案中所规定的要求更为具体。统计分析计划书应在试验方案和病例报告表确定之后形成,在之后的临床试验进行过程中,可以进行修改、补充和完善。统计分析计划书中应包括统计分析集的选择、主要指标、次要指标、数据变换、缺失值及离群值的处理、统计分析方法、疗效及安全性评价方法等,按预期的统计分析结果列出统计分析表备用。
(三)统计分析方法
临床试验中数据分析所采用的统计分析方法和统计分析软件应是国内外公认的,统计分析应建立在正确、完整的数据基础上,采用的统计模型应根据研究目的、试验方案和观察指标选择,一般可概括为以下几个方面。①统计描述:一般多用于人口学资料、基线资料和安全性资料,包括对主要指标和次要指标的统计描述。在大多数的试验中,对安全性与耐受性的评价常采用描述性统计方法对数据进行分析。②参数估计和假设检验:参数估计和假设检验用于对主要指标及次要指标进行评价和估计。在试验方案中即应当说明要检验的假设和待估计的处理效应、统计分析方法以及所涉及的统计模型。假设检验应明确说明所采用的是单侧还是双侧。③协变量分析和中心效应:评价药物有效性的主要指标除药物作用以外,常常还有其他因素的影响,在统计学中可作为协变量处理。在试验前应认真识别可能对主要指标有重要影响的协变量,排除由于协变量不均衡所产生的影响。在多中心临床试验中,同时还要考虑中心效应是否存在。④安全性评价:安全性评价是临床试验中一个非常重要的方面。药物安全性评价的常用统计指标为不良事件发生率和不良反应发生率。
(四)统计分析报告
临床试验完成后,经统计学专业人员根据确认的统计分析计划书完成统计分析工作,写出统计分析报告。统计分析报告是提供给主要研究者作为撰写临床试验总结报告的重要素材。在统计分析报告中应首先简单描述临床试验的目的、研究设计、随机化、盲法及盲态审核过程、统计分析集的规定等;其次对统计分析报告中涉及的统计模型,应准确而完整地予以描述。对药物有效性评价应给出每个观察时间点的统计描述结果,列出检验统计量和P值。例如,用方差分析进行主要指标有效性分析时,应考虑治疗、中心和分析指标基线值的影响,进行协方差分析。药物的安全性评价主要以统计描述为主,包括用药情况如用药持续时间、剂量、药物浓度;不良事件发生率及不良事件的具体描述等。
四、统计学应用在临床试验中常遇到的问题
进行临床试验并且对临床试验数据进行统计分析是一项科学且严肃的工作,在实施过程中会遇到许多问题。在试验阶段常出现的问题有:未严格执行随机化分组,盲法被破坏,患者入组排除标准未严格执行;在数据管理和质量控制阶段常出现的问题有:对数据集划分不当,重要数据缺失,数据前后不一致等;在数据统计分析阶段常出现的问题有:数据未进行标准化,统计描述过于简单,数据分布未进行描述,当基线不均和中心差别较大时未进行分析,以及统计分析方法选择不当等问题。参与临床试验的研究者以及专业统计人员均应以高度的热忱、认真负责的态度对数据进行真实有效的记载和详细科学的分析,确保统计结果的合理性和科学性。