ヒトパンゲノムの概要参照配列
ヒトパンゲノムの概要参照配列に関する三つの研究の研究が公表されました。この参照配列は、さまざまなヒトのDNAの塩基配列をできるだけ多く集めることが目標とされています。この一連の研究は、遺伝的に多様な被験者(合計47人)から採取した遺伝物質に基づいており、ヒトゲノムの全容解明に一歩近づきました。これまで現代人の遺伝学的研究は、地域単位での比較では、ヨーロッパおよび北アメリカ大陸が最も進んでおり、それが現代人の遺伝的多様性の検証において基準とされる傾向にありました。その意味で、遺伝的に多様な人々のゲノムに基づく概要参照配列は重要で、最近では現代人集団において最も遺伝的多様性の高いアフリカ人集団の大規模なゲノムデータが報告されています(関連記事1および関連記事2)。
ヒトパンゲノムの概要参照配列を報告した研究(Liao et al., 2023)は、多様な民族集団に起源がある47人を対象としています。このパンゲノムには、遺伝的に多様なコホート(特定の性質が一致する個体で構成される集団)に由来するフェージングされた二倍体集合47例が含まれます。これらの集合は、各ゲノムに想定される塩基配列の99%以上を網羅しており、その精度は構造および塩基対の水準で99%を超えます。本論文は、こうした集合の整列に基づいて、既知の多様体およびハプロタイプを把握し、構造の複雑な座位で新たなアレル(対立遺伝子)を明らかにする、概要パンゲノムを作成しました。本論文は、既存の参照配列GRCh38に対して、1億1900万塩基対のユークロマチン多型配列と、1115件の遺伝子重複も追加しました。新たに加わった塩基対のうち約9000万は、構造多様性に由来しています。この概要パンゲノムを用いての短い読み取りデータの解析により、GRCh38に基づくワークフローとの比較で、小さな多様体の発見エラーが34%減少するとともに、ハプロタイプ当たりの構造多様体検出数が104%増加し、試料ごとの構造多様体アレルの大多数の遺伝子型決定が可能となりました。
塩基配列一致率のひじょうに高いDNAのまとまった領域がゲノム内の複数の部位に出現する現象である、分節重複(segmental duplications、略してSD)内での変異と遺伝子変換の増加を報告した研究(Vollger et al., 2023)は、に一塩基多様体(Single Nucleotide Variant、略してSNV)地図を作成し、これまでマッピング(多少の違いを許容しつつ、ヒトゲノム配列内の類似性が高い処理を同定する情報処理)されていなかった数百万のSNVを特定しました。SNVは、短い読み取りの塩基配列解読データのマッピングに限界があるため、これまで体系的に評価されてきませんでした。本論文は、ヒトの102のハプロタイプにおける高同一性SDにまたがる1:1の明確な整列を構築し、重複のない領域と重複した領域の間でSNVのパターンを比較しました。ヒトSNVは、重複のない領域と比較してSDで60%高いと分かり、この増加の少なくとも23%は座位間遺伝子変換(interlocus gene conversion、略してIGC)によるもので、ヒトハプロタイプ当たり平均して最高430万塩基対のSD塩基配列が変換された、と推定されました。本論文は、IGCの供与部位と受容部位についてのゲノム規模地図を作製しました。これには、約800のタンパク質コード遺伝子のエキソンに影響を及ぼす498の受容部位と454の供与部位のホットスポット(変異を起こす可能性が高いDNA領域)が含まれています。これらのホットスポットには、ヒトの一部のハプロタイプでの平均161万塩基対の「再配置」された遺伝子が171含まれています。合祖枠組みを用いて、SD領域は、重複のない塩基配列と比較して、おそらくIGCのために進化的にわずかに古い、と分かりました。しかし、SD内のSNVは、異なる変異連続体を示しており、重複のないDNAと比較した場合、全てのトリプレットにおいてシトシン(C)からグアニン(G)またはその逆に変換するトランスバージョンが27.1%増加し、CpG関連変異の頻度が7.6%低下している、と分かりました。本論文は、これらの異なる変異特性が、SDのDNAの全体的なGC含量を、重複のないDNAのGC含量よりも高く維持するのに役立っており、これはおそらくパラログ(遺伝子重複により生じた類似の機能を有する遺伝子)塩基配列間のGCに偏った変換によって駆動される、と考えられます。
相同でない末端動原体型染色体(染色体の末端近くにセントロメアが位置している染色体)の短腕の間で組換えパターンを報告した研究(Guarracino et al., 2023)は、この染色体間でDNAが交換される機構を示す、観察的証拠をもたらしました。ヒト末端動原体型染色体である13・14・15・21・22番染色体の短腕(SAAC)には、リボソームDNA反復配列や大規模な分節重複など、共通の大きな相同領域が存在します。ヒトゲノムの最初の完全な集合であるT2T-CHM13(T2T〔Telomere-to-Telomere〕コンソーシアムによるCHM13集合)におけるこれらの領域の解明により、それらの相同性のモデルが示されていますが、こうしたパターンが祖先由来であるのか、組換えによる継続的な交換によって維持されているのか、分かっていません。本論文は、末端動原体型染色体が、非相同塩基配列間の組換えが起こることを示す疑似相同領域(PHR)を含んでいる、と示します。ヒトパンゲノム参照コンソーシアム(HPRC)のヒトパンゲノムの網羅的な比較を用いることで、全てのSAACのコンティグが1つのコミュニティーを形成する、と分かりました。セントロメアにまたがる末端動原体型染色体コンティグから構築された変動図から、T2T-CHM13内の異種末端動原体型染色体間に、ほとんどのコンティグがほぼ同一に見える領域が存在する、と示されました。15番染色体を除いて、疑似相同領域では、対応する短腕や長腕よりも連鎖不平衡の減衰が速い、と観察され、組換え率がより高い、と分かりました。こうした疑似相同領域には、これまでにロバートソン転座の切断点にあることが示されている塩基配列も含まれており、それらの配置は、13・14・2番1染色体の逆位重複における交差に対応しています。HPRCの概要パンゲノムでは、異種末端動原体型染色体間に組換えシグナルの普遍性が見られることから、これらの共有塩基配列が、頻発するロバートソン転座の基盤を形成している、と示唆され、これにより、50年前の細胞遺伝学研究から最初に生まれた仮説が、塩基配列およびヒト集団に基づいて確認されました。以下は『ネイチャー』の日本語サイトからの引用(引用1および引用2)です。
遺伝学:ヒトパンゲノムの概要参照配列が初めて発表される(N&V)
ヒトパンゲノムの最初の概要参照配列が、今週、Natureで発表される。この参照配列は、さまざまな人々のDNAの塩基配列をできるだけ多く集めることが目標とされている。今回の研究は、遺伝的に多様な被験者(合計47人)から採取した遺伝物質に基づいており、ヒトゲノムの全容解明に一歩近づいた。
ヒトの参照ゲノム(標準ゲノム塩基配列)は、2001年に概要版が発表されて以来、ヒトゲノミクスのバックボーンになってきた。しかし、単一のゲノム塩基配列に、構造バリアントや代替的な対立遺伝子の存在による遺伝的多様性を反映させることはできず、それらの一部は、当初の参照ゲノムに含まれていなかった。
今週、Natureに掲載されるヒト・パンゲノム・リファレンス・コンソーシアム(Human Pangenome Reference Consortium)の3編の論文には、ヒトパンゲノムの最初の概要参照配列と、この参照配列に基づいた2件の新たな遺伝学研究が示されている。このパンゲノムは、さまざまな民族的ルーツを持つ被験者(47人)のコホートを基に構築され、現行の参照ゲノム(GRCh38)と比べると、1億1900万塩基対と1115の遺伝子重複(1個の遺伝子を含むDNA領域が重複する変異現象)が新たに加わっている。この概要参照配列を用いた解析で検出された構造バリアントの数は、GRCh38よりも104%多く、ヒトゲノムの遺伝的多様性がさらに詳しく明らかになった。
これに関連して、この概要参照配列を用いて得られた知見が、同時掲載される2編の論文に示されている。Evan Eichlerらは、分節重複(塩基配列一致率の非常に高いDNAのまとまった領域がゲノム内の複数の部位に出現する現象)における一塩基変異(SNV)のマップを作製して、これまでマッピングされていなかった数百万のSNVを特定した上で、重複していないDNA領域のSNVと比較して、変異特性の違いを明らかにした。一方、Erik Garrisonらは、相同でない末端動原体型染色体(染色体の末端近くにセントロメアが位置している染色体)の短腕の間で組換えが起こるパターンを観察し、この染色体の間でDNAが交換される機構を示す観察的証拠をもたらした。このDNAの交換については、これまで適切なデータが得られておらず、推測にとどまっていた。
今回の知見は、350人の被験者の遺伝的多様性を記録することを目的としたヒトパンゲノムの構築という構想の中間段階にすぎない。今週号のNatureのNews & Views Forumでは、Arya MassaratとMelissa Gymrekが、こうした研究の進展の重要性を論じる一方で、いくつかの残された課題(例えば、さらに多様なサンプルを採取する必要があることなど)を克服するためには継続的な改善が必要なことを指摘しており、「そうすれば、身体的形質や臨床形質に関係する遺伝的バリアントを容易に発見できるようになり、多くの人々の健康状態が改善されることにつながることを期待できるだろう」と述べている。
さらに別の関連論文が、Nature Biotechnologyに掲載される。
Cover Story:ヒトのパンゲノム:47人から得られたデータを組み合わせてヒトの多様性を反映する参照リソースが作られた
ヒト参照ゲノムは、2001年に概要配列が公表されて以来、ヒトゲノミクスの基幹となってきた。しかしこれには、1つのゲノムでは人類の多様性を捉えることが望めないという限界があった。今週号では、ヒトパンゲノム参照コンソーシアムが、遺伝的に多様な47人の遺伝物質を組み合わせた、初めてのヒト概要パンゲノムを提示し、ヒトゲノムのより完全な描像を得ている。さらに2報の論文では、この新たなリソースを用いて、1報はセグメント重複に、もう1報では末端動原体型染色体の短腕に着目して、反復DNAを含むゲノムの領域が調べられている。一連の結果は、このパンゲノムプロジェクトの初期段階で得られたものであり、その最終的な目標は、少なくとも350人の遺伝的多様性を捉えることである。表紙は、球体に巻き付くパンゲノムで、第6染色体の極めて変化しやすいいHLA-A遺伝子内の10種のハプロタイプに関連するパンゲノムの塩基配列のチューブマップのレンダリングを用いている。
参考文献:
Guarracino A. et al.(2023): Recombination between heterologous human acrocentric chromosomes. Nature, 617, 7960, 335–343.
https://doi.org/10.1038/s41586-023-05976-y
Liao WW. et al.(2023): A draft human pangenome reference. Nature, 617, 7960, 312–324.
https://doi.org/10.1038/s41586-023-05896-x
Vollger MR. et al.(2023): Increased mutation and gene conversion within human segmental duplications. Nature, 617, 7960, 325–334.
https://doi.org/10.1038/s41586-023-05895-y
ヒトパンゲノムの概要参照配列を報告した研究(Liao et al., 2023)は、多様な民族集団に起源がある47人を対象としています。このパンゲノムには、遺伝的に多様なコホート(特定の性質が一致する個体で構成される集団)に由来するフェージングされた二倍体集合47例が含まれます。これらの集合は、各ゲノムに想定される塩基配列の99%以上を網羅しており、その精度は構造および塩基対の水準で99%を超えます。本論文は、こうした集合の整列に基づいて、既知の多様体およびハプロタイプを把握し、構造の複雑な座位で新たなアレル(対立遺伝子)を明らかにする、概要パンゲノムを作成しました。本論文は、既存の参照配列GRCh38に対して、1億1900万塩基対のユークロマチン多型配列と、1115件の遺伝子重複も追加しました。新たに加わった塩基対のうち約9000万は、構造多様性に由来しています。この概要パンゲノムを用いての短い読み取りデータの解析により、GRCh38に基づくワークフローとの比較で、小さな多様体の発見エラーが34%減少するとともに、ハプロタイプ当たりの構造多様体検出数が104%増加し、試料ごとの構造多様体アレルの大多数の遺伝子型決定が可能となりました。
塩基配列一致率のひじょうに高いDNAのまとまった領域がゲノム内の複数の部位に出現する現象である、分節重複(segmental duplications、略してSD)内での変異と遺伝子変換の増加を報告した研究(Vollger et al., 2023)は、に一塩基多様体(Single Nucleotide Variant、略してSNV)地図を作成し、これまでマッピング(多少の違いを許容しつつ、ヒトゲノム配列内の類似性が高い処理を同定する情報処理)されていなかった数百万のSNVを特定しました。SNVは、短い読み取りの塩基配列解読データのマッピングに限界があるため、これまで体系的に評価されてきませんでした。本論文は、ヒトの102のハプロタイプにおける高同一性SDにまたがる1:1の明確な整列を構築し、重複のない領域と重複した領域の間でSNVのパターンを比較しました。ヒトSNVは、重複のない領域と比較してSDで60%高いと分かり、この増加の少なくとも23%は座位間遺伝子変換(interlocus gene conversion、略してIGC)によるもので、ヒトハプロタイプ当たり平均して最高430万塩基対のSD塩基配列が変換された、と推定されました。本論文は、IGCの供与部位と受容部位についてのゲノム規模地図を作製しました。これには、約800のタンパク質コード遺伝子のエキソンに影響を及ぼす498の受容部位と454の供与部位のホットスポット(変異を起こす可能性が高いDNA領域)が含まれています。これらのホットスポットには、ヒトの一部のハプロタイプでの平均161万塩基対の「再配置」された遺伝子が171含まれています。合祖枠組みを用いて、SD領域は、重複のない塩基配列と比較して、おそらくIGCのために進化的にわずかに古い、と分かりました。しかし、SD内のSNVは、異なる変異連続体を示しており、重複のないDNAと比較した場合、全てのトリプレットにおいてシトシン(C)からグアニン(G)またはその逆に変換するトランスバージョンが27.1%増加し、CpG関連変異の頻度が7.6%低下している、と分かりました。本論文は、これらの異なる変異特性が、SDのDNAの全体的なGC含量を、重複のないDNAのGC含量よりも高く維持するのに役立っており、これはおそらくパラログ(遺伝子重複により生じた類似の機能を有する遺伝子)塩基配列間のGCに偏った変換によって駆動される、と考えられます。
相同でない末端動原体型染色体(染色体の末端近くにセントロメアが位置している染色体)の短腕の間で組換えパターンを報告した研究(Guarracino et al., 2023)は、この染色体間でDNAが交換される機構を示す、観察的証拠をもたらしました。ヒト末端動原体型染色体である13・14・15・21・22番染色体の短腕(SAAC)には、リボソームDNA反復配列や大規模な分節重複など、共通の大きな相同領域が存在します。ヒトゲノムの最初の完全な集合であるT2T-CHM13(T2T〔Telomere-to-Telomere〕コンソーシアムによるCHM13集合)におけるこれらの領域の解明により、それらの相同性のモデルが示されていますが、こうしたパターンが祖先由来であるのか、組換えによる継続的な交換によって維持されているのか、分かっていません。本論文は、末端動原体型染色体が、非相同塩基配列間の組換えが起こることを示す疑似相同領域(PHR)を含んでいる、と示します。ヒトパンゲノム参照コンソーシアム(HPRC)のヒトパンゲノムの網羅的な比較を用いることで、全てのSAACのコンティグが1つのコミュニティーを形成する、と分かりました。セントロメアにまたがる末端動原体型染色体コンティグから構築された変動図から、T2T-CHM13内の異種末端動原体型染色体間に、ほとんどのコンティグがほぼ同一に見える領域が存在する、と示されました。15番染色体を除いて、疑似相同領域では、対応する短腕や長腕よりも連鎖不平衡の減衰が速い、と観察され、組換え率がより高い、と分かりました。こうした疑似相同領域には、これまでにロバートソン転座の切断点にあることが示されている塩基配列も含まれており、それらの配置は、13・14・2番1染色体の逆位重複における交差に対応しています。HPRCの概要パンゲノムでは、異種末端動原体型染色体間に組換えシグナルの普遍性が見られることから、これらの共有塩基配列が、頻発するロバートソン転座の基盤を形成している、と示唆され、これにより、50年前の細胞遺伝学研究から最初に生まれた仮説が、塩基配列およびヒト集団に基づいて確認されました。以下は『ネイチャー』の日本語サイトからの引用(引用1および引用2)です。
遺伝学:ヒトパンゲノムの概要参照配列が初めて発表される(N&V)
ヒトパンゲノムの最初の概要参照配列が、今週、Natureで発表される。この参照配列は、さまざまな人々のDNAの塩基配列をできるだけ多く集めることが目標とされている。今回の研究は、遺伝的に多様な被験者(合計47人)から採取した遺伝物質に基づいており、ヒトゲノムの全容解明に一歩近づいた。
ヒトの参照ゲノム(標準ゲノム塩基配列)は、2001年に概要版が発表されて以来、ヒトゲノミクスのバックボーンになってきた。しかし、単一のゲノム塩基配列に、構造バリアントや代替的な対立遺伝子の存在による遺伝的多様性を反映させることはできず、それらの一部は、当初の参照ゲノムに含まれていなかった。
今週、Natureに掲載されるヒト・パンゲノム・リファレンス・コンソーシアム(Human Pangenome Reference Consortium)の3編の論文には、ヒトパンゲノムの最初の概要参照配列と、この参照配列に基づいた2件の新たな遺伝学研究が示されている。このパンゲノムは、さまざまな民族的ルーツを持つ被験者(47人)のコホートを基に構築され、現行の参照ゲノム(GRCh38)と比べると、1億1900万塩基対と1115の遺伝子重複(1個の遺伝子を含むDNA領域が重複する変異現象)が新たに加わっている。この概要参照配列を用いた解析で検出された構造バリアントの数は、GRCh38よりも104%多く、ヒトゲノムの遺伝的多様性がさらに詳しく明らかになった。
これに関連して、この概要参照配列を用いて得られた知見が、同時掲載される2編の論文に示されている。Evan Eichlerらは、分節重複(塩基配列一致率の非常に高いDNAのまとまった領域がゲノム内の複数の部位に出現する現象)における一塩基変異(SNV)のマップを作製して、これまでマッピングされていなかった数百万のSNVを特定した上で、重複していないDNA領域のSNVと比較して、変異特性の違いを明らかにした。一方、Erik Garrisonらは、相同でない末端動原体型染色体(染色体の末端近くにセントロメアが位置している染色体)の短腕の間で組換えが起こるパターンを観察し、この染色体の間でDNAが交換される機構を示す観察的証拠をもたらした。このDNAの交換については、これまで適切なデータが得られておらず、推測にとどまっていた。
今回の知見は、350人の被験者の遺伝的多様性を記録することを目的としたヒトパンゲノムの構築という構想の中間段階にすぎない。今週号のNatureのNews & Views Forumでは、Arya MassaratとMelissa Gymrekが、こうした研究の進展の重要性を論じる一方で、いくつかの残された課題(例えば、さらに多様なサンプルを採取する必要があることなど)を克服するためには継続的な改善が必要なことを指摘しており、「そうすれば、身体的形質や臨床形質に関係する遺伝的バリアントを容易に発見できるようになり、多くの人々の健康状態が改善されることにつながることを期待できるだろう」と述べている。
さらに別の関連論文が、Nature Biotechnologyに掲載される。
Cover Story:ヒトのパンゲノム:47人から得られたデータを組み合わせてヒトの多様性を反映する参照リソースが作られた
ヒト参照ゲノムは、2001年に概要配列が公表されて以来、ヒトゲノミクスの基幹となってきた。しかしこれには、1つのゲノムでは人類の多様性を捉えることが望めないという限界があった。今週号では、ヒトパンゲノム参照コンソーシアムが、遺伝的に多様な47人の遺伝物質を組み合わせた、初めてのヒト概要パンゲノムを提示し、ヒトゲノムのより完全な描像を得ている。さらに2報の論文では、この新たなリソースを用いて、1報はセグメント重複に、もう1報では末端動原体型染色体の短腕に着目して、反復DNAを含むゲノムの領域が調べられている。一連の結果は、このパンゲノムプロジェクトの初期段階で得られたものであり、その最終的な目標は、少なくとも350人の遺伝的多様性を捉えることである。表紙は、球体に巻き付くパンゲノムで、第6染色体の極めて変化しやすいいHLA-A遺伝子内の10種のハプロタイプに関連するパンゲノムの塩基配列のチューブマップのレンダリングを用いている。
参考文献:
Guarracino A. et al.(2023): Recombination between heterologous human acrocentric chromosomes. Nature, 617, 7960, 335–343.
https://doi.org/10.1038/s41586-023-05976-y
Liao WW. et al.(2023): A draft human pangenome reference. Nature, 617, 7960, 312–324.
https://doi.org/10.1038/s41586-023-05896-x
Vollger MR. et al.(2023): Increased mutation and gene conversion within human segmental duplications. Nature, 617, 7960, 325–334.
https://doi.org/10.1038/s41586-023-05895-y
この記事へのコメント