新闻

《自然》重磅!迄今最大规模人类遗传变异数据库公布,将破解基因功能“密码”

字号+作者:qsd 来源:前瞻网 2020-05-29 11:45 收藏成功收藏本文

  人类基因组中大多数基因的生理功能仍然未知。与许多工程和科学领域一样,在生物学中,打破复杂系统的各个组成部分可以提供对该系统的结构和行为的宝贵见解。

  尽管对模型生物和人类细胞系的研究对于破译许多人类基因的功能至关重要,但它们仍是人类生理学的不完美代表。

  而这种“不完整”的局面将会停止:5月27日,国际顶级期刊《自然》共发表了6篇Nature(4篇研究论文),1篇Nature Medicine,2篇Nature Communications细致阐述了研究人员们在这一方面获得的最新里程碑式突破。

595

  他们对这种丰富资源的分析创建了一个目录,列出了目前存在的不同类型的变异,并揭示了其潜在的功能影响以及该信息如何帮助识别引起疾病的突变并确定潜在的药物靶标的优先级。

  在第一篇论文中,Ryan L. Collins等研究人员将来自人类测序研究的125,748个外显子组和15,708个基因组的聚合描述到基因组聚合数据库(gnomAD)中。在筛选出由测序和注释错误引起的假象后,研究人员在该队列中确定了443,769个高可信度预测的功能丧失变异。

自然

  使用改良的人类突变率模型,研究人员们沿着代表灭活耐受性的光谱对人类蛋白质编码基因进行分类,使用来自模型生物和工程化人类细胞的数据验证该分类,并证明其可用于提高常见和罕见疾病的基因发现。

基因

图1:141,456个外显子组和基因组序列的汇总。

  第二篇Eric Vallabh Minikel等人的研究则报告了有关使用人类功能丧失型变体评估候选药物靶标的三个关键发现。

自然

  另外,Ryan L. Collins等人题为“A structural variation reference for medical and population genetics”的研究,则介绍了gnomAD中由全球不同群体(54%非欧洲人)的14,891个基因组构建的序列解析SV的参考。该研究发现了433,371个SV的丰富而复杂的景观,据此估计SV占每个基因组所有罕见蛋白质截短事件的25–29%。

自然

  外显子组和基因组测序项目,揭示了人类pLOF天然变化的惊人负担,其中包括停止获得的必需剪接和移码变体,它们可以用作灭活人类基因的自然模型。通过数十年来对严重孟德尔疾病的遗传基础的研究,此类变异已经揭示了许多有关人类生物学和疾病机制的信息,其中大多数是由杂合或纯合状态的破坏性变异驱动的。这些变体还被证明对鉴定潜在的治疗靶点有价值:已确认的PCSK9基因中的LoF变体与低水平的低密度脂蛋白胆固醇6有因果关系,并最终导致了目前临床上几种PCSK9抑制剂的开发。用于减少心血管疾病的风险。对人类pLoF变体的系统分类以及对失活耐受性谱的基因分类将为医学遗传学,鉴定候选致病突变,潜在的治疗靶点等提供宝贵的资源人类基因。

  高质量的基因变化“图谱”

  汇总了来自199,558位个体的全外显子组测序数据和来自20,314位个体的全基因组测序数据。这些数据主要来自对成人常见疾病(包括心血管疾病、2型糖尿病和精神疾病)的病例对照研究。统一处理每个数据集,分别总计超过1.3和1.6 PB的原始测序数据,使用标准化的BWA-Picard-GATK管道18对每个数据集执行联合变体调用,并使用Hail19进行所有数据处理和分析。

  最终的gnomAD版本包含来自125,748个外显子组和15,708个基因组的遗传变异,这些变异来自具有高质量序列数据的独特无亲缘个体,跨越6个全球和8个次大陆祖先。研究人员们还提供了gnomAD数据集的子集,这些子集不包括病例对照研究中的病例,或者某些特殊疾病类型(例如癌症和神经系统疾病)的病例。

  在这些个体中,他们分别在外显子组和基因组数据集中发现了1,720万个和2.619亿个变体。然后使用随机森林的训练过程,将这些变体过滤掉了1,490万和2.299亿个高质量变体。通过样本对比,结果显示这一筛选过滤实现了非常高的精度(单核苷酸变异(SNV)超过99%,外显子组和基因组中插入缺失的98.5%以上)和召回率(单基因组和基因组的SNV超过90%,indel超过82%)。此外,他们分别利用了外显子组和基因组调用集中包含的4,568和212个三重奏的数据来评估我们稀有变体的质量。他们发现模型在20号染色体(未用于模型训练)上保留了超过97.8%的已传播单子(不相关个体中的子代已传给后代)。

  这些变体反映了基于突变和选择的预期模式:研究观察到84.9%的所有可能的持续甲基化CpG到TpG过渡,这些过渡会在人类外显子组中产生同义变体,这表明在此样本量下,他们开始研究这种高度可变且选择不佳的变异类别的突变饱和度。但是,仅观察到52%的甲基化CpG终止获得的变体,这说明自然选择的作用是从种群中去除了大部分破坏基因的变体。在所有突变背景下,在外显子组数据集中仅分别观察到11.5%和3.7%的可能同义和终止获得的变体,这表明当前样本量与捕获人类外显子组的完整突变饱和度相去甚远。

  人类基因的LoF不耐受性

  正如大量pLoF变体可用于识别LoF耐性基因一样,可以通过鉴定预测的LoF变异的显着消耗来反过来表征基因对失活的不耐受性。研究人员们提出了一个完善的突变模型,该模型结合了甲基化,基本水平覆盖校正和LOFTEE,以预测在中性条件下的预期变异水平。在此更新的模型下,可以准确捕获观察到的同义变体数量的变化(r = 0.979)。然后,他们通过比较观察到的pLoF变体的数量与我们预期的来自125,748个人的gnomAD外显子组数据中的pLoF变体的数量,来检测pLoF变异的耗竭-是以前最大的外显子组集合ExAC的样本量的两倍多。对于该数据集,总共计算了每个基因17.9个预期的pLoF变异体的中位数,发现72.1%的基因具有10个以上的pLoF变异体(有可能被分类为最受限制的基因),分别比ExAC的13.2%和62.8%有所增加。

  结果发现,不受约束的基因对失活具有相对的耐受性,包括许多含有纯合pLoF变异体的基因。

基因2

图2:生成高可信度的pLoF变体集。

基因3

图3:pLoF影响的功能范围。

  编译/前瞻经济学人APP资讯组

  参考来源:https://www.nature.com/articles/s41586-020-2308-7

  https://www.nature.com/articles/s41586-020-2267-z

  https://www.nature.com/articles/s41586-020-2287-8

  https://www.nature.com/articles/s41586-020-2329-2

  https://www.nature.com/articles/d41586-020-01551-x

  https://www.nature.com/articles/d41586-020-01485-4

  https://www.nature.com/articles/s41591-020-0893-5

  https://www.nature.com/articles/s41467-019-10717-9

  https://www.nature.com/articles/s41467-019-12438-5

科技在线遵循行业规范,网站刊载的所有文稿、图片文件均为用户自行上传或转载,为传播更多的信息之目的。其相应的版权归原所有人所有,如以上内容涉及到您的合法权益,请用电子邮件通知我们及时处理。