摘要:
目的:对数据挖掘中解决分类问题的常用方法进行分析,比较它们应用于计算机辅助诊断系统时的性能.方法:收集1998-06/2004-12在北京友谊医院和北京结核病院胸部肿瘤研究所经手术或穿刺活检病理证实的孤立肺节结200例(恶性135例,良性65例),观察2项临床指标(年龄及是否有痰中带血丝)和5项薄层CT指标,并按7∶3的比例将样本随机数字法分配到训练集和测试集中.分别用Fisher线性判别分析、Logistic回归分析、决策树和神经网络方法构建诊断分类器,并用测试样本验证各个分类器.利用诊断的敏感度、特异度评价分类器的准确性,用ROC曲线及曲线下面积比较各个分类器总体诊断性能.结果:①对60例样本进行诊断测试,4种方法的敏感度分别为84.6%,87.2%,87.2%和87.2%,特异度分别为85.7%,81.0%,76.2%和81.0%.②4种方法诊断的ROC曲线下面积分别为0.918,0.918,0.939和0.942,任何两种方法比较,曲线下面积的差异均无统计学意义(P值分别为0.898 2,0.157 6,0.349 5,0.285 7,0.431 9和0.986 8).结论:从分类算法的分类准确性、分类器的可理解性以及对诊断的指导意义三方面进行比较,Logisitc回归和神经网络方法具有较高的诊断分类准确性,判别分析、Logistic回归分析和决策树方法具有较好的模型可理解性,基于BP算法的神经网络对实际诊断具有较好的指导作用.它们都可用于计算机辅助诊断系统中.