研究结果以“Accurate Genomic Prediction of Human Height”为题发表在10月份的《Genetics》杂志上。该研究利用机器学习(计算机从数据中学习)分析了英国近50万成年人的完整基因构成。
值得注意的是,一种算法或者工具仅仅基于一个人的基因组就建立了诸如身高、骨密度甚至一个人可能达到的教育水平等人类特征的预测因子,这尚属首次。而且它远不止于此。
“我们已经为这三种结果验证了这个工具,现在可以应用这种方法来预测与心脏病、糖尿病、乳腺癌等健康风险相关的其他复杂特征,”该研究的首席研究员Stephen Hsu说,“这只是个开始。该‘神器’的进一步应用或可以极大地促进精准医疗的实践,使医生能够尽早干预病人的护理、预防或延缓疾病。”
在验证试验中,计算机准确地预测每个人的身高,虽然骨密度和受教育程度的预测值不那么精确,但它们的准确性足以识别出那些骨密度极低可能与骨质疏松症相关或者是在学校里有挣扎危险的人群。
传统的基因检测通常会检测一个人的基因或染色体的特异性变化,这些变化可能表明患乳腺癌等疾病的风险更高。Hsu的模型考虑了大量的基因组差异,并基于成千上万的变异构建了预测因子。
利用来自英国生物银行的数据,Hsu和他的团队将算法付诸实施,评估每个参与者的DNA,并教计算机找出这些明显的差异。
Hsu说:“该算法着眼于每个人的遗传构成和身高。计算机向每个人学习,并最终产生一个预测器,可以单独从基因组上判断他们的身高。”
Hsu的团队将继续改进算法,同时挖掘更大、更多样化的数据集。这样做将进一步验证这些技术,并继续帮助绘制这些重要性状和疾病风险的遗传结构。
Hsu补充道,随着计算能力的提高和DNA测序成本的降低,过去被认为是5到10年后的事情,现在已经近在眼前了。
“我们的团队相信这是医学的未来,”他说,“对患者来说,基因组检测费用只需50美元左右。一旦我们计算出遗传性疾病的预测因子,早期干预可以节省数十亿美元的治疗费用,更重要的是,还能挽救生命。”