ヒトゲノム多様体のカタログ

 ヒトゲノム多様体のカタログに関する4研究が公表されました。ゲノムデータを集約したデータベースである「Genome Aggregation Database(gnomAD)」に、ヒトの遺伝的多様体の公開カタログとして既知では最大のものが登録されました。この大きな標本規模により、個人間の一塩基多様体(SNV)だけではなく、50以上のヌクレオチドで構成されたより複雑な構造多様体トのカタログ作成も可能になりました。このカタログは、ヒトの遺伝子の機能に関する理解を深め、新たな疾患関連遺伝子を発見するための情報源となります。また、これらの研究は、ネアンデルタール人(Homo neanderthalensis)やデニソワ人(Denisovan)など非現生人類ホモ属(古代型ホモ属)と現生人類(Homo sapiens)との違いといった、現代人の進化史の解明にも大きく貢献しそうという点でも、注目されます。

 ヒトゲノムを構成する遺伝子の大部分は、機能が明らかになっていません。遺伝子の機能を探索する方法の一つは、変異により遺伝子の機能が破壊された時に何が起こるのか、観察することです。こうした遺伝的多様体は通常、有害な結果をもたらすことが多く、その発生頻度は非常に低い、と推測されています。大規模な遺伝子の塩基配列解読研究は、この機能喪失型多様体の影響を調べる機会となり、その結果、ヒトの生物学的特性と疾患に関する重要な手掛かりが得られるかもしれません。

 141456人を対象とした研究(Karczewski et al., 2020)では、多様体の多様性から変異制約スペクトラムが定量化されました。タンパク質コード遺伝子を不活性化する遺伝的多様体は、遺伝子が破壊された結果生じる表現型に関する強力な情報資源です。生物の機能に重要な遺伝子であれば、そのような多様体は自然集団の中で失われますが、必須でない遺伝子はそうした多様体の蓄積を許容する、と予測されます。しかし、予測される機能喪失多様体には多数のアノテーションエラーが含まれており、見つかる頻度は極めて低い傾向にあるため、それらの解析には多様体の慎重なアノテーションと非常に大きな標本規模が必要となります。この研究は、ヒトの塩基配列解読研究で得られた125748のエキソームと15708のゲノムを集積して構築したgnomADについて報告しています。このコホートから、塩基配列解読やアノテーションのエラーにより生じたアーティファクトをフィルタリングした後、443769個の高信頼度の予測される機能喪失多様体が特定されました。この研究は、ヒト変異率の改良型モデルを用いて、ヒトのタンパク質コード遺伝子を、不活性化に対する許容性を示すスペクトルに沿って分類し、この分類をモデル生物とヒト改変細胞からのデータにより検証しました。これは、ヒトの予測される機能喪失多様体の全てを突き止めるという目標には遠く及ばないものの、ありふれた疾患と稀な疾患の両方の遺伝子の検出力を改善できる、と示しています。

 433371の構造多様体(SV)のカタログを作成した研究(Collins et al., 2020)では、生理的特徴に対するその影響が解析されました。SVはDNAの大きな断片を再配列させ、進化やヒト疾患に重大な結果を引き起こす可能性があります。国立バイオバンクや疾患関連研究や臨床遺伝学的検査のゲノム塩基配列解読への依存が増すにつれて、gnomADなどの集団参照データセットが一塩基多様体(SNV)の解釈に不可欠になっています。しかし、高網羅率のゲノム塩基配列解読から得られたSVの参照マップで、SNVの参照マップに匹敵するものはありません。この研究は、gnomADにおける全世界のさまざまな集団(54%が非ヨーロッパ人)の14891のゲノムから構築した、塩基配列が解読されたSVの参照データセットを示します。この研究は、433371のSVの豊かで複雑な全体像を明らかにし、そこからSVがゲノム当たりの稀なタンパク質短縮の全事象の25~29%の原因である、と推定しました。機能を損なうSNVに対する自然選択と、タンパク質をコードする塩基配列を破壊あるいは重複させる稀なSVとの間には強い相関が見られ、これは、機能喪失に対して非常に耐性の低い遺伝子が遺伝子量の上昇にも敏感である、と示唆しています。また、タンパク質を短縮させるSVに対する選択は全てのノンコーディング効果よりも強力でしたが、シス調節エレメントのノンコーディングSVに対するそれほど大きくない選択も明らかになりました。さらに、標本の3.9%に非常に大きな(1メガ塩基を超える)稀なSVが特定され、0.13%の人が臨床的に重要な偶発的所見の既存の基準を満たすSVを保有している、と推定されました。このSV情報資源は、gnomADブラウザを介して自由に利用でき、集団遺伝学や疾患関連研究や診断スクリーニングにおいて広く役立つでしょう。

 RNA発現データを用いた研究(Cummings et al., 2020)では、多様体解釈の指針が得られることを報告しています。患者や集団研究の試料におけるDNA塩基配列解読が加速した結果、ヒトの遺伝的多様性についての広範なカタログが作成されるようになりましたが、稀な遺伝的多様体の解釈については、まだ問題があります。この難題の注目すべき一例は、一見すると健康な人においてさえも、遺伝子量感受性の疾患遺伝子に破壊的な多様体が存在することです。この研究は、gnomADにおいてハプロ不全疾患遺伝子の予測される機能喪失(pLoF)多様体を手作業でキュレーションすることにより、この矛盾の説明の一つが、mRNAの選択的スプライシングに関係していることを示します。遺伝子のエキソンは、こうしたmRNAの選択的スプライシングにより異なるタイプの細胞においてさまざまなレベルで発現することができます。現在、エキソン発現についての情報を多様体の解釈に系統的に組み込むアノテーションツールは存在しません。この研究は、多様体に対してアイソフォームの発現を定量化する、「転写産物全体での発現の割合(proportion expression across transcripts)」として知られる転写産物レベルのアノテーション測定基準を開発しました。本論文は、この測定基準を、遺伝型組織発現(GTEx)プロジェクトの11706の組織試料を用いて計算し、機能の重要性の代理指標となる、進化的な保存の程度が低いエキソンと高いエキソンを区別できる、と示します。発現を基盤とするアノテーションは、gnomADのハプロ不全疾患遺伝子に見られる誤ってアノテーションされたpLoFバリアントの22.8%を選択的に除外しますが、同じ遺伝子の高信頼度の病原性多様体は4%未満しか除外しない、と実証されました。さらに、この発現フィルターを、自閉症スペクトラム障害や知的障害あるいは発達障害の患者の新規変異多様体の解析に適用したところ、弱く発現する領域のpLoF多様体は同義多様体と同様の効果量を持ちますが、高度に発現するエキソンのpLoF多様体は症例の中で最も豊富に見られる、と明らかになりました。このアノテーションは迅速で順応性が高く、一般化可能であるため、どのような多様体ファイルでもあらゆるアイソフォーム発現データセットでアノテーションでき、稀な疾患の遺伝学的診断や複合疾患における稀な多様体量の解析、さらにはそしてRbG(recall-by-genotype)研究における多様体のキュレーションおよび優先順位付けに役立つ、と考えられます。

 薬剤の遺伝的標的の特定に関する研究(Minikel et al., 2020)では、gnomADデータがどのように役立つ可能性があるのか、報告されています。自然に生じたヒト遺伝的多様体で、タンパク質コード遺伝子を不活性化すると予測されるものは、ヒト遺伝子不活性化のin vivo(遺伝子編集酵素をコードするDNAを直接人体に注入する方法)モデルとなり、細胞やモデル生物でのノックアウト研究を補足します。この研究は、ヒトの機能喪失多様体を用いた薬剤標的候補の評価に関する三つの重要な知見を報告します。第一は、機能喪失多様体が許容されない必須遺伝子であっても、阻害薬の標的として大きな成功を収める可能性があることです。第二は、ほとんどの遺伝子で機能喪失多様体はひじょうに稀で、ホモ接合型や複合的なヘテロ接合型「ノックアウト」のヒトを遺伝子型に基づいて確認するには、血縁者を集中的に集めない限り、現在利用可能な規模の約1000倍が必要となることです。第三は、自動化された多様体アノテーションやフィルタリングは強力ですが、アーティファクトを取り除くためには手作業でのキュレーションが依然として不可欠で、RbGによる取り組みでは前提条件となることです。これらの知見は、ヒトノックアウト研究のロードマップを示し、創薬における機能喪失バリアントの解釈に対する手引きとなるでしょう。以下は『ネイチャー』の日本語サイトからの引用(引用1および引用2)です。


遺伝学:gnomADプロジェクトによるゲノム解釈の向上

 ゲノムデータを集約したデータベースであるGenome Aggregation Database(gnomAD)に、ヒトの遺伝的バリアントの公開カタログとして現在知られている最大のものが登録された。このカタログは、ヒトの遺伝子の機能に関する理解を深め、新たな疾患関連遺伝子を発見するための情報源となる。このデータセットは、14万人以上の協力者のサンプルから収集されたもので、このほど、このデータセットの適用について記述された論文が、Nature、Nature Communications、Nature Medicine に掲載される。

 ヒトゲノムを構成する遺伝子の大部分は、機能が明らかになっていない。遺伝子の機能を探索する方法の1つは、変異によって遺伝子の機能が破壊された時に何が起こるかを観察することである。こうした遺伝的バリアントは通常、有害な結果をもたらすことが多く、その発生頻度は非常に低い。大規模な遺伝子の塩基配列解読研究は、この機能喪失型バリアントの影響を調べる機会であり、その結果、ヒトの生物学的特性と疾患に関する重要な手掛かりが得られる可能性がある。

 Nature に掲載される概括論文で、Konrad Karczewskiたちは、全エキソーム塩基配列解読データセット12万5748件と全ゲノム塩基配列解読データセット1万5708件から予測される機能喪失バリアント44万3769種のカタログを提示している。Karczewskiたちは、正常な機能を阻害するタンパク質を産生すると予測されるこれらのバリアントが、生理的には全く(ほとんど)影響を及ぼさないのか、あるいは重篤な健康問題を引き起こすのかを評価した。また、Nature に掲載される別の2編の論文では、このデータセットを用いて、構造バリアントに関する情報源が構築され、遺伝子の欠失、重複や逆位の影響が評価されている。

 今回の一連の論文では他に、ヒトの機能喪失バリアントを用いて、薬物標的候補を評価した論文、遺伝的バリアントの臨床解釈を向上させた論文、特定の機能喪失バリアントをより詳細に研究できることを明らかにした論文が掲載される。例えば、Nature Medicine に掲載される論文では、Nicola Whiffinたちが、パーキンソン病のリスク上昇に関連する遺伝子のバリアントを分析し、この遺伝子を標的とすることが安全な治療選択肢となる可能性を示している。

 gnomADプロジェクトによって収集されたサンプルのサイズは、その先行プロジェクトExome Aggregation Consortium(ExAC)による6万例以上のエキソームの集約と比べると2倍以上である。Karczewskiらは、ヒトの予測される機能喪失バリアントの全てを突き止めるという目標には遠く及ばないものの、今回公開されたバリアントのカタログが、希少な遺伝病と一般的な遺伝病の評価を向上させる機会になるという見方を示している。


Cover Story:ヒトの情報資源:gnomAD:ヒトゲノムのバリアントのカタログ

 今週号には、gnomAD(Genome Aggregation Database)から得られた詳細な知見について報告した4報の論文が掲載されている。gnomADは、6万706人のエキソームを集約した2016年のExACデータベースの後継となるもので、12万5748のエキソームと1万5708の全ゲノム塩基配列が集められている。このようにサンプルサイズが大きくなり範囲が広がったことで、個人間の一塩基バリアント(SNV)だけでなく、50以上のヌクレオチドでできたより複雑な構造バリアントのカタログの作成も可能になった。中心となる論文では、K Karczewskiたちが、このデータベースを概観し、タンパク質をコードする遺伝子を不活性化し得るバリアントを調べている。第二の論文では、R Collinsたちが、43万3371の構造バリアントのカタログを作成し、生理的特徴に対するその影響を解析している。第三の論文では、B Cummingsたちが、RNA発現データを用いてバリアント解釈の指針が得られることを示している。そして第四の論文では、E Minikelたちが、薬剤の遺伝的標的の特定にgnomADデータがどのように役立つ可能性があるか探っている。



参考文献:
Collins RL. et al.(2020): A structural variation reference for medical and population genetics. Nature, 581, 7809, 444–451.
https://doi.org/10.1038/s41586-020-2287-8

Cummings BB. et al.(2020): Transcript expression-aware annotation improves rare variant interpretation. Nature, 581, 7809, 452–458.
https://doi.org/10.1038/s41586-020-2329-2

Karczewski KJ. et al.(2020): The mutational constraint spectrum quantified from variation in 141,456 humans. Nature, 581, 7809, 434–443.
https://doi.org/10.1038/s41586-020-2308-7

Minikel EV. et al.(2020): Evaluating drug targets through human loss-of-function genetic variation. Nature, 581, 7809, 459–464.
https://doi.org/10.1038/s41586-020-2267-z

この記事へのコメント

この記事へのトラックバック