如何精准检测评估基因组组装质量?中国科研团队研发出一款新工具

发布时间:2024-11-09 16:08:32 来源: sp20241109

   中新网 北京10月19日电 (记者 孙自法)近年来,随着基因测序技术和算法不断发展,大量物种基因组被陆续测序和组装,为相关研究和应用提供重要遗传信息。因此,如何精准检测评估基因组组装质量高低、避免组装错误等非常关键,也备受关注。

  记者19日从中国科学院植物研究所获悉,该所焦远年研究团队最新研究开发出一种不依赖参考基因组的组装质量评估新工具CRAQ(Clipping information for Revealing Assembly Quality),可以在单碱基水平检测和评估基因组序列的精准度,并提供相关纠错方案。这一基因组研究领域的重要成果论文,近日在国际学术期刊《自然-通讯》上线发表。

CRAQ工具的整体流程示意图。中国科学院植物所 供图

  论文通讯作者焦远年研究员指出,高质量的参考基因组序列对于基因注释和相关功能研究至关重要,也是大规模比较基因组学和表观遗传调控研究的重要前提。不过,目前多数基因组序列中仍然存在一些组装错误,给相关研究带来一定程度影响。而精准区分和鉴定高质量与低质量的基因组序列,不仅可以为基因组组装质量提供评估依据和进一步改进提供靶点,也可以为后期比较基因组和功能研究位点提供基因组序列质量认证。当前,虽然已有一些基因组组装质量评估的方法和指标,但其大多仅提供一个总体的评估值,没有针对特定区域或碱基的评估信息。

  针对这一问题,该研究团队研发的CRAQ通过将原始测序序列比对到组装的基因组上,基于序列比对产生的有效“剪切对齐”信息,可精准地检测基因组中存在的组装错误。结合长读长测序片段和短读长测序片段与基因组比对的特征,CRAQ可以识别基因组内小规模的区域组装错误和大范围的结构组装错误,不同类别的错误数量经过统计和标准化处理后被转化为两个组装质量评估指标,以反映不同层面的基因组组装质量。

CRAQ检测并纠正组装嵌合片段示例。中国科学院植物所 供图

  同时,CRAQ能够将组装错误与基因组内的高杂合区域或单倍型差异区分开来,并在单碱基分辨率下指示低质量组装区域和潜在错误断点的位置。在此基础上,CRAQ能帮助研究人员识别基因组中存在的嵌合片段,并将这些片段准确地拆分,以利于结合光学图谱或构象捕获技术进一步构建结构更加准确的参考基因组。

  据研究团队介绍,为对CRAQ进行性能测试和评估,他们以人类参考基因组组装为基础构建一个模拟数据集并利用CRAQ和目前广泛使用的基因组质量评估工具进行测试和比较,结果表明,当缺乏完美参考基因组时,CRAQ表现最佳,并在检测杂合区域方面也表现出超过95%的召回率和精确度。研究团队还通过对一个真实的果蝇杂交的基因组数据集进行分析,发现CRAQ可以准确地将组装错误和杂合区域区分开来,而其他工具则无法检测出杂合区域。(完)

【编辑:黄钰涵】