0573-83108883
021-6766-9183
允英学术简报:生信团队小试牛刀 | 机器学习支持向量机算法成功挖掘结肠癌与直肠癌分子特征
发布时间: 2021-12-17 14:23:15
    结直肠癌(colorectal cancer,CRC)又称大肠癌,是结肠癌(colon cancer)与直肠癌(rectal cancer)的统称,为全球第三大常见癌症,也是导致癌症相关死亡的第四大原因。根据2020年全球癌症统计报告,大约31%的CRC发生在近端结肠,25%发生在远端结肠,34%发生在直肠和直肠乙状结肠交界处。原发性结肠癌与直肠癌的治疗方法与临床特征差异较大,例如:11.5%的直肠癌患者有肺转移倾向,而在结肠癌患者中这一比例只有3.5%,然而这一现象背后的分子机制尚不清楚。

    允英医疗与江苏省肿瘤医院合作,在癌症基因组图谱(the cancer genome atlas,TCGA)公共数据库中筛选了393例大肠癌患者(结肠癌298例,直肠癌95例),提取其转录组测序数据并借助随机森林(random forest,RF)与支持向量机(support vector machines,SVM)等机器学习算法进行分类,寻找结肠癌与直肠癌的分子特征(图1)。


        图1 研究思路

    在总共20502个基因中,随机森林算法筛选出96个区分结肠癌与直肠癌的特征性分类基因集群,发现HOXB13、PRAC和BCLAF1是其中三个差异表达最大的基因。进一步,建立包含196个CRC样本(151结肠癌,45直肠癌)的训练集,对该96个基因进行基于SVM方法的模型构建,并以剩余197个CRC样本(147结肠癌,50直肠癌)作为验证集,验证模型的分类性能。最终,该模型在区分结肠癌和直肠癌样本方面的准确度达到82.2%,AUC为0.91(图2)。

        图2 结肠癌与直肠癌96个特征性分类基因群
    综上,本研究发现的96个特征性分类基因群可用作结肠癌与直肠癌的生物标志物,在此基础上建立的SVM分类模型,能够有效区分结肠癌与直肠癌样本。这些生物标志物的发现和研究,有利于理解不同亚型大肠癌发病率的分子机制,以及探索结直肠癌早期筛查和治疗中的潜力靶点。