标题:表示泛基因组图中的结构单倍型和复杂的遗传变异。项目概要泛基因组图(PGG)参考必须忠实地反映拷贝数,订单和方向上的结构单倍型,其目前以线性参考序列表示不当。这项努力侧重于最复制的变量和复杂地区,包括分段重复(SDS),倒置,短串联重复/可变数字串联重复(复制 - 数字 - 变量重复,CNVR)以及经常被排除在引用中或折叠的组合基因组。该项目的总体目标是开发工具基础设施,从而能够构建全染色体参考单倍型,包括所有这些难度的序列。有四个特定的目标。首先,我们将开发从单倍型阶段的DE Novo组件构建PGG的方法,确保图表反映了拷贝数变化和重复结构,包括CNVR和SD。其次,我们将开发将扩展SD装配方法的软件,以便于PGGS中的SD Loci策展。我们将使用SD组件来检测特定于复制的多个副本的变体,称为Paralog特定的变体(PSV),并提供软件以通过描述不同副本的PGG重建本地单倍型路径。三,我们将设计新的方法来利用映射到PGG的单细胞模板链DNA测序数据(链SEQ)以通过图形螺纹染色染色体长度结构单倍型。 Therefore, our software tool will allow the physical resolution of haplotypes comprising the full spectrum of structural variation, including inversions and inverted duplications. By virtue of the PSVs, the structural haplotypes will also embed sequence-resolved SDs. Fourth, we will develop a scalable open-source software framework to systematically assess how the inclusion of single-nucleotide variants, short indels, and structural variant classes in the PGG affects variant detection with short-read data. This will enable the optimization of the complexity encoded in the PGG for short-read variant detection. It will additionally provide a comprehensive view on polymorphic and fixed k-mers in human populations. We will develop tools to detect allele-specific k-mers and demonstrate how that enables the rapid genotyping of variants in the PGG based on k-mer composition of a short-read dataset. Once the framework for enhanced genome representation is established, we will focus on improving efficiency, scalability, and computational ease to cater to the needs of a broad range of users in genetics and genome science. This proposal will ensure that the most complex regions of the human genome are encoded into the PGG and that underlying genetic variation is ultimately assessed for association with disease. ?

公共卫生相关

推进参考基因组表示以全面反映人类基因序列的补充,对于减轻当前的参考偏差和在未来的疾病研究中纳入更完整的一套变异是至关重要的。虽然这对于分析难以描述的变异类型尤其有利,但矛盾的是,在图中忠实地表示这种变异却很少受到关注,并且缺乏相应的工具。在这个项目中,我们将开发工具来构建这样的图,通过它们来线程染色体长度参考单倍型,并利用它们从短读测序数据中快速检测变异,使它们能够立即应用于大规模疾病研究。

机构
国家健康研究所(NIH)
研究所
国家人类基因组研究所(NHGRI)
类型
研究项目——合作协议(U01)
项目 #
1 u01hg010973-01
应用 #
9906038
研究部分
特别强调面板(ZHG1)
计划官
索非亚,海蒂J
项目开始
2020-02-10
项目结束
2023-01-31
预算开始
2020-02-10
预算结束
2021-01-31
支援年份
1
财政年度
2020
总花费
间接开销
名称
南加利福尼亚大学
部门
生物学
类型
艺术与科学学院
DUNS#
072933393
城市
洛杉矶
状态
加利福尼亚州
国家
美国
邮政编码
90089