摘要研究背景和意义:<br> 在生物医学大数据时代,面对海量的多元纵向数据,根据现有数据特征进行多方位、准确的统计建模来剖析数据中隐藏的规律和全面挖掘数据信息,从而更好地辅助医学诊疗和科学研究,是统计学数据分析中十分重要且意义深远的研究内容,也是亟待解决的热点和难点问题。近年来,纵向数据的分析方法研究已经取得了较大发展,但是现有纵向数据分析方法多集中于单个响应变量纵向数据的分析,而多个响应变量纵向数据的分析偏少,不能解决多响应变量间的横向关系以及潜变量与响应变量间的关系,如何对多元纵向数据进行统计联合建模有待探讨;与此同时,如何在众多的纵向数据统计建模方法中,根据实际问题的研究目的、纵向数据本身的特性和各种模型方法的性能等,选择一种适合数据特征、方便易行、操作简单、结果可靠的方法并没有一个明确的标准;这些存在于多元纵向数据建模分析工作中的困惑给医学研究工作以及后续疾病防治措施和策略的制定带来了巨大的挑战。所以,上述问题的有效解决,可以使得研究者在深入探索临床疾病诊断治疗(如老年人认知功能障碍诊断、中风疗效评价)和人群健康状况研究(如中国慢性病大型队列研究、中国高血压随访调查研究、儿童生长发育监测)等领域个体随时间变化规律和个体之间差异及其原因的时候有更加方便、准确、有效的统计分析方法,能够进行更为精准的医学评估、诊断、治疗和研究,一定程度上可以促进医疗卫生事业的发展。<br> 研究内容和方法:<br> 论文对美国国家阿尔兹海默合作中心的842名60岁以上老年人连续调查5年的认知功能及其影响因素进行研究,在采用不同纵向数据分析方法进行对比研究的基础上,论文提出了一种基于自回归与相关的多层次潜变量增长混合边际模型(Auto-Regression & Correlation Multilevel-Latent Variable Growth Mixed Marginal Model,ARC-MLVGMMM)对多元纵向数据进行联合统计建模,并初步探讨了多元纵向数据建模分析策略的构建,全文主要从以下几个方面进行研究:<br> (1)单个响应变量纵向数据的建模分析:根据纵向数据特征采用具有代表性的三种模型,广义估计方程(Generalized Estimating Equations,GEE)、线性混合效应模型(Linear Mixed Effect Model,LME)、潜变量增长曲线模型(Latent Variable GrowthCurveModel,LGCM)对老年认知功能评估的三个响应指标痴呆评定量表(ClinicalDementia Rating,CDR)得分、神经精神量表(Neuropsychiatric Inventory Questionnaire,NPI-Q)得分、简易精神状态量表(Mini-Mental State Examination,MMSE)得分进行单独建模及其影响因素分析;<br> (2)多元纵向数据的联合建模分析:将反应老年认知功能的三个响应指标进行联合建模分析,并将CDR、NPI-Q、MMSE的潜变量与老年认知状态建立回归模型,探讨潜变量和响应变量的关系;<br> (3)对不同模型的拟合准确度进行比较:将多个模型拟合效果采用标准化均方误差进行十次验证,从而对不同模型进行客观评价;<br> (4)初步构建多元纵向数据建模分析策略:总结出不同模型各自的优缺点及其适用范围,并对多元纵向数据统计建模策略的构建进行初步探讨。<br> 研究结果:<br> (1)单个响应变量纵向数据建模分析结果:<br> 广义估计方程在等相关结构下对三个响应指标进行了较好的拟合,对 CDR 得分的影响有显著性的自变量有:时间、居住情况、自理能力和GDS得分;对NPI-Q得分有显著性影响的自变量有:性别、自理能力、近期用药、心理健康、听力、GDS得分;对 MMSE 得分有显著性影响的自变量有:时间、年龄、性别、自理能力、吸烟、高血压、高血脂、GDS得分。<br> 线性混合效应模型在无结构协方差结构下,各项模型拟合指标值最小,对 CDR得分影响有显著性的自变量有:时间、年龄、性别、受教育程度、居住情况、自理能力、吸烟、心血管疾病、神经病变、心理健康和GDS得分;对NPI-Q得分影响有显著性的自变量有:性别、居住类型、自理能力、高血脂、心理健康、听力、GDS得分;对MMSE得分有显著性影响的自变量有:时间、年龄、性别、自理能力、高血压、高血脂、GDS得分。<br> 潜变量增长曲线模型对响应变量的平均初始水平和平均变化率做出估计。对CDR得分截距和斜率有显著性影响自变量有:年龄、性别、心理健康、受教育程度、居住类型、自理能力、用药、视力;对NPI-Q得分截距和斜率有显著性影响自变量有:性别、受教育程度、自理能力、居住类型、一级亲属认知障碍、心理健康、视力情况、GDS得分;对 MMSE 得分截距和斜率有显著性影响自变量有:年龄、性别、受教育程、自理能力、视力。<br> (2)多元纵向数据联合建模分析结果:<br> 对三个响应指标进行联合建模,对 CDR 得分的影响有显著性的自变量有:时间、居住情况、自理能力和GDS得分;对NPI-Q得分有显著性影响的自变量有:性别、居住类型、自理能力、近期用药、心理健康、GDS得分;对MMSE得分有显著性影响的自变量有:时间、年龄、性别、自理能力、吸烟、高血脂、GDS得分。将CDR、NPI-Q、MMSE 的潜变量分别和老年认知状态建立多元回归模型,模型结果显示,CDR 的初始水平和变化率对老年认知状态呈显著正效应,回归系数分别是 0.74(P<0.05)、1.44 (P<0.05)。NPI-Q的初始水平和变化率对老年认知状态呈显著正效应,回归系数分别是0.30(P<0.05)、2.03(P<0.05)。MMSE的初始水平和变化率对老年认知状态呈显著负效应,回归系数分别是-0.26(P<0.05)、-0.66(P<0.05)。<br> (3)不同模型拟合准确度的比较结果:<br> 对广义估计方程、线性混合效应模型(LME1为随机截距模型、LME2为随机斜率模型)和联合建模方法的模型拟合准确度进行 10 次验证,评价指标为采用标准化均方误差(Normalized Mean Square Error,NMSE)。不同模型拟合CDR的NMSE均值分别是0.317、0.115、0.040、0.275,不同模型拟合NPI-Q的NMSE均值分别是0.698、0.337、0.270、0.677,不同模型拟合MMSE的NMSE均值分别是0.804、0.650、0.605、0.802。采用LME单独建模的NMSE值最小,拟合效果最好;其次是采用联合建模方法对三个指标的拟合;GEE单独建模的NMSE值最大,拟合效果最差。<br> (4)多元纵向数据建模分析策略的初步构建结果:<br> 论文通过实例的分析和对比研究,总结了四种统计模型的适用条件和特点,初步构建了多元纵向数据建模分析策略。以探讨总体平均发展趋势和个体平均发展趋势的差异为目的时,可以选择新兴的纵向数据分析方法(如:广义估计方程、线性混合效应模型、潜变量增长曲线模型)和本文提出的联合建模分析方法;当纵向数据中只含有一个响应变量情况下,线性混合效应模型拟合效果最好,当纵向数据中含有多个响应变量情况下,可采用本文提出的基于 ARC-MLVGMMM 联合建模方法;当数据中含有潜变量时可选择潜变量增长曲线模型和联合建模方法;数据中含有缺失或者多种响应变量类型时,文中列举的方法均可选择。<br> 研究结论:<br> (1)论文提出的基于自回归与相关的多层次潜变量增长混合边际模型的联合建模方法可以针对多元纵向数据特征以及分析目的进行多方位的数据建模分析和信息挖掘;该方法的提出丰富和发展了多元纵向数据的分析方法研究,通过实例验证可以有效的处理多元纵向数据,可以助力生物医学大数据分析方法的研究,具有重要的学术研究理论价值。<br> (2)论文中所列举的所有纵向数据分析方法模型均可有效的处理纵向数据,所得参数估计结果不完全一致,与模型本身的构建和参数估计方法不同等因素有关;不同模型在数据拟合效果方面各有优缺点,实际应用中应根据数据的特点、资料完整性和分析目的选择准确可靠的统计分析方法,对于所得的参数估计值和模型也应结合实际工作情况验证和完善。<br> (3)初步构建的多元纵向数据建模分析策略,可帮助研究人员快速准确地选择合适的纵向数据分析方法,而且将为后续建立更加全面和具体的多元纵向数据建模分析策略提供坚实的理论依据和指导性的应用参考。
更多相关知识
- 浏览186
- 被引1
- 下载83
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文