我院主导完成第一个基于三代测序的亚洲人参考基因组

发布时间:2016-07-01 发布单位:粤港澳中枢神经再生研究院


6月30日,由我校粤港澳中枢神经再生研究院主导完成的第一个亚洲人参考基因组“华夏一号”发表于Nature Communications杂志。粤港澳中枢神经再生研究院作为论文第一完成单位,该研究院的师玲玲副研究员为论文第一作者,苏国辉院士、周立兵教授和我校讲座教授王凯作为论文共同通讯作者。在该项目实施过程中开发的相关基因组分析算法已提交专利申请。

该工作是我校与南加州大学、华盛顿大学、俄亥俄州立大学、美国国立卫生研究院生物技术信息中心、武汉生物技术研究院、未来组生物、哥伦比亚大学、贝勒医学院、冷泉港实验室等多家科研单位共同合作完成的。(论文链接:http://dx.doi.org/10.1038/NCOMMS12065)

“华夏一号”项目利用基于PacBio 平台的第三代单分子实时测序技术,产出超过103X的基因组覆盖率,并基于此进行基因组de novo组装,最终得到一个中国人的基因组接近完成图。

基于三代测序技术,本项目平均读长达到7kb,N50为12.1kb,均远大于二代测序约150bp的测序读长;通过优化FALCON组装程序,组装得到2.93Gb基因组,其 Contig N50为8.3Mb;同时该项目利用BioNano的光学图谱分析平台,产出超过101X的基因组覆盖率,使Scaffold N50达到22Mb。

与目前广泛使用的人类基因组参考序列版本GRCh38相比,“华夏一号”组装图填补了后者近三分之一的缺口,并且发现了“华夏一号”独有的部分基因组区域。与其它已经公布的亚洲人基因组参考序列相比,有 4.1Mb为首次报道的新发现序列。

除此之外,基于三代测序技术的全长转录组分析进一步鉴定了许多在基于二代测序的转录组数据中没被挖掘出的转录本,研究人员通过实验的方法验证了这些“在GENCODE中从未有过注释”转录本的真实存在。

据粤港澳中枢神经再生研究院相关学者介绍,“华夏一号”的发布填补了中国人群的疾病研究缺少精准参考基因组的不足,对于中国人群基因组学研究、遗传疾病研究、精准医疗应用等领域具有重要科学价值。特别是对于与基因拷贝数变异密切相关的神经遗传疾病,该项目呈现的精准参考基因组组装方式和组装结果将极大推动神经遗传疾病基因组信息的深度挖掘与应用。

该成果发表以前,多个研究小组尝试对亚洲人基因组进行de novo组装;但基于二代测序的短读长技术局限,组装结果并不理想,相当部分的重复序列未被组装基因组覆盖。