全ゲノム配列決定による現代日本人の遺伝的構造
全ゲノム配列決定(Whole-genome sequencing、略してWGS)から現代日本人の遺伝的構造を示した研究(Liu et al., 2024)が公表されました。日本語の解説記事もあります。本論文は、日本全土の現代人3256個体の高品質なゲノムデータを報告し、これは全ゲノム配列決定ライブラリ日本百科事典(Japanese Encyclopedia of Whole-Genome/Exome Sequencing Library、略してJEWEL)と呼ばれています。本論文は、この現代日本人の大規模な高品質のゲノムデータと、既知の古代人のゲノムデータを統合し、先行研究(Cooke et al., 2021)で指摘された現代日本人の三重起源の遺伝的構造の可能性を示すとともに、非現生人類(Homo sapiens)ホモ属であるネアンデルタール人(Homo neanderthalensis)や種区分未定のホモ属であるデニソワ人(Denisovan)からの遺伝子移入を示しています。本論文は、今後の古代ゲノム研究の進展による日本人の遺伝的起源の解明の基礎となる、重要な成果と言えるでしょう。
●要約
本論文は、日本全国の3256個体から構成される高深度の全ゲノム配列決定である、JEWELを生成しました。JEWELの分析から、微小配列(マイクロアレイ)データの使用では識別できなかった、日本人集団の遺伝的特徴が明らかになりました。第一に、稀な多様体に基づく分析から、前例のない微細規模の遺伝的構造が明らかになりました。集団遺伝学的分析と合わせると、現在の日本人は3祖先構成要素に分解できます。第二に、未報告の機能喪失(loss-of-function、略してLoF)多様体が特定され、特定の遺伝子について、LoF多様体は偶然に予測されるより限定的な転写産物一式に制約されているようで、タンパク質チロシン脱リン酸化酵素受容体D型(protein tyrosine phosphatase receptor type D、略してPTPRD)が顕著な事例となる、と観察されました。第三に、2型糖尿病と関連するNKX6-1におけるデニソワ人由来断片を含めて、複雑な形質と関連する44点の古代型断片が特定されました。これらの断片のほとんどはアジア東部人に固有です。第四に、最近の自然選択下の候補遺伝子座が特定されました。本論文は全体的に、日本人集団への遺伝的特徴への洞察を提供しました。
●研究史
WGS(全ゲノム配列決定)データセットは、ヒトの遺伝学および生物医学的研究にとって貴重な情報源です。遺伝的多様体の包括的な特性解明を通じて、WGSデータは詳細な分析を可能にしてきました。これらの分析から、ヒトゲノムの差異の特徴への洞察が得られ(Jónsson et al., 2017)、人口集団の複雑な歴史が明らかになり(Mallick et al., 2016、Choin et al., 2021)、進化的適応および正の選択の過程に光が当てられました。遺伝学における応用の点では、WGSデータセットは補完分析に不可欠です。大規模なWGSデータセットにより、多民族もしくは人口集団固有の参照パネルの構築が可能となってきました。微小配列データから遺伝子型決定されていない多様体を正確に推測することにより、補完分析はGWAS(genome-wide association studies、ゲノム規模関連研究)の能力を効率的に高め、詳細なマッピング(多少の違いを許容しつつ、ヒトゲノム配列内の類似性が高い処理を同定する情報処理)を可能とし、民族を超えたメタ分析を促進します。
さらに、WGSデータセットは、稀か、特定の人口集団に固有か、有害もしくは機能喪失(loss-of-function、略してLoF)と予測される多様体を含めて、多様体の豊富な情報源を提供します。これらの多様体は、さまざまな疾患との関連だけではなく、ヒトの遺伝子欠損の影響についても調査でき、生理学的および病理学的両方の過程における機能的役割の特定、したがって医薬品開発の標的としての可能性調査の機会を提供します(Minikel et al., 2020)。したがって、WGSデータセットは、正確な遺伝学的分析および個別化医療の開発に不可欠です。
現在、大規模な人口集団規模のWGSデータはヨーロッパ系子孫の個体群により不均衡に表されており、とりわけ、イギリス生物銀行(United Kingdom Biobank、略してUKB)やフィンランド人ゲノミクス(Finnish Genomic、略してFinnGen)研究(Kurki et al., 2023)やdeCODE社(Gudbjartsson et al., 2015)によって大きな貢献がなされてきました。ゲノムデータにおけるヨーロッパ中心の不均衡は、精密医療の不平等な恩恵をもたらし、健康格差の懸念を引き起こすかもしれません。たとえば、多遺伝子危険性得点は、他の祖先系統(祖先系譜、祖先成分、祖先構成、ancestry)と比較して、ヨーロッパ祖先系統を有する個体群の方に数倍高い精度を示すことがよくありました。
特定の人口集団に対応した個別化医療実施のためのヒトの遺伝的差異のより広範囲の把握の重要性の認識から、精密医療のための横断分野および我々全員計画などで、より多様な民族集団における標本を配列決定するため、協調的な試みがなされてきました。この状況で、注目すべき進歩がアジア東部(East Asian、略してEA)人口集団のWGSデータ生成でもありました。ゲノムアジア10万人(GenomeAsia100K Consortium., 2019)やシンガポール10万人研究計画(SG10K)や中国地図計画や中国の西湖生物銀行など、重要な新構想が確立されてきました。これらの試みはまとめて、EA人口集団におけるより広範囲の遺伝的多様体を明らかにし、それによってこの地域の遺伝的多様性の理解を深めます。
日本人集団のWGSデータに関しては、注目すべき試みが東北医療巨大銀行(Tohoku Medical Megabank、略してToMMo)により行なわれてきました。先行研究では、日本北東部地域から募集された日本人1070個体のWGSが実行されました。この研究は、稀な遺伝的多様体および構造多様体(structural variants、略してSV)を特定し、日本人固有の参照パネルを生成しました。その後、ToMMoなどの配列決定の試みが継続され、日本人3500個体と8300個体に基づく概要水準のアレル(対立遺伝子)頻度(allele frequency、略してAF)が報告されてきました。さらに、増加し続けている個体数に基づくAFデータは、日本人多分野参照パネルデータベースとTogoVarデータベースで利用可能です。これらのデータセットは、日本人集団における遺伝的多様体の一覧表として貴重な情報を提供し、遺伝学的相談の文脈における多様体の解釈に重要です。最近、国立総合施設生物銀行網が、おもに共通対照標本としての使用を目的として、9287個体のWGSデータを公開し、日本人の遺伝的データの情報源をさらに充実させました。
本論文は、JEWEL(全ゲノム配列決定ライブラリ日本百科事典)を生成し、これは、日本生物銀行(Biobank Japan、略してBBJ)の標本を用いた包括的なWGSです。BBJは日本最大の生物銀行の一つで、アジア全域の生物銀行研究の主導的存在です(Terao et al., 2020)。日本の北東部地域の一般的な人口集団に基づくToMMoとは異なり、BBJはゲノム医療研究を推進するための全国規模の生物銀行として設立されました。JEWELは、多様な地理的地域からの標本抽出により、日本人の遺伝的多様性のより適切な把握を目的としています。主成分分析(principal component analysis、略してPCA)は、「(日本列島の本州・四国・九州とそのごく近隣の島々を中心として構成される)本土」クラスタ(まとまり)と琉球クラスタで構成される日本人の二重人口構造を特定してきており、最近の研究は、「本土【以下、「」でくくりません】」日本人内のかなりの遺伝的異質性を浮き彫りにしてきました(Watanabe et al., 2021)。
WGSの使用により、JEWELは詳細な人口構造のさらなる調査への機会を提供します。さらにBBJでは、医療記録とその後の調査と検査を通じて、深い表現型を収集して整理するために、広範な試みが行なわれてきました。これらには、一次および二次の疾患診断、長期の臨床検査結果、過去の病歴、家族の病歴、生存情報が含まれます。結果として、JEWELは疾患と関連するかもしれない病原性多様体が豊富で、詳細な臨床情報により、特定の関心のある保因者を対象とした調査が可能となります。本論文では、一般的および稀な多様体、LoF多様体とヒト遺伝子欠損の特徴づけ、ネアンデルタール人もしくはデニソワ人からの遺伝子移入された可能性が高い古代型断片の同定を用いての、遺伝的構造の再調査を含む、詳細な分析が提示されます。最後に、本論文は、日本人集団において選択の標的となったかもしれない遺伝子座の特定を試みました。
●JEWELのWGSデータセットの特徴
日本全国の7ヶ所の地理的地域の医療機関から登録された合計3256個体が配列決定され、JEWELが生成されました。これらの地域には北海道と東北と関東と中部と関西と九州と沖縄が含まれ、以後はそれぞれ、北部(北海道)と北東部(東北)と東部(関東)と中央部(中部)と西部(関西)と南部(九州)と沖縄(沖縄)と呼ばれます(図1A)。沖縄を除く全地域は日本列島の主要な島々に位置しており、一般的には本土として知られていますが、本論文における沖縄という用語は、琉球諸島を意味します。相対的な標本規模は、日本のこれらの地域の人口規模を比例して反映しています。以下は本論文の図1です。
配列決定は標準的なイルミナ(Illumina)社の実施要綱に従って実行され、平均的なWGS網羅率の深度は25.6倍でした。多様体の呼び出しは、確立されたゲノム解析手法一式(Genome Analysis Toolkit、略してGATK)の最良の慣例に従って行なわれました。最終的なデータセットは、23本の染色体で得られた45586919点の一塩基多様体(Single Nucleotide Variant、略してSNV)と9113420点の挿入もしくは欠失(挿入欠失)から構成されました。多様体の61%と40%は、それぞれゲノム集成データベース(Genome Aggregation Database、略してゲノムAD)とToMMoで記録されておらず(Karczewski et al., 2020)、15410953点(32.7%)の多様体はJEWELでのみ観察されました。
微小配列遺伝子型決定データと比較すると、99.971%の高い遺伝子型一致率が得られました。42389421点の両アレル常染色体SNVを用いて、塩基転換(transversion、略してTv、ピリミジン塩基とプリン塩基との間の置換)に対する塩基転位(transition、略してTi、ピリミジン塩基間もしくはプリン塩基間の置換)の比率は2.11と推定され、これは最近の大規模なWGS分析と一致します。これらの結果から、JEWELデータセットはさまざまな側面において高品質で、この人口集団【日本人集団】の遺伝的特徴のより深い分析が可能になる、と確証されました。
●日本人集団の三重祖先起源
まず、184036点の独立した要約共通多様体に基づいて慣習的なPCAが実行されました。先行研究と一致して、分析は沖縄と「本土」で構成される古典的な「二重クラスタ」構造を再現しました(図1B)。稀な多様体が人口構造の解明により多くの情報をもたらす、と本論文は仮定し、PCA均一多面近似および投影(PCA–Uniform Manifold Approximation and Projection、略してPCA-UMAP)分析が実行され、1835116点の独立した要約された稀な多様体のみが用いられました。この分析は、日本人集団の前例のない微細構造を明らかにしました(図1C)。この構造は「ハチドリ」に似ており、共通多様体に基づいてPCAから得られたパターンを再現しただけではなく、いくつかの注目すべき特徴も浮き彫りにしました。具体的に観察されたのは、(1)本土の下位地域間のより明確な分離、および本土クラスタからの沖縄クラスタのより明確な区別と、(2)薄く狭い領域でクラスタ化した北東部個体群と、(3)西部および南部の個体群の追加の下位クラスタです。
人口構造へのより深い洞察を得るため、一般的な多様体に基づいて教師なしADMIXTURE分析が実行されました。最適なK(系統構成要素数)値を決定するため、手法である、他の推定量と比較して優れた性能を示すと論証されている、「Structure Selector」が用いられましした。この分析では、全ての4測定基準が祖先構成要素の最適な数として3のK値を裏づけます。さらに、badMIXTUREを用いて、適合度が評価され、大きな残差の系統的パターンは観察されず、K=3で全体的に良好な適合が示唆されます。したがって本論文のデータから、日本人集団は3祖先構成要素(以下、K1~K3)の混合により最適にモデル化できる、と示唆されました。K1~K3はそれぞれ、沖縄と北東部と西部で最高でした(図1D)。K1(沖縄)構成要素は本土下位集団では約12%の比較的安定した割合を維持しており、例外は南部(沖縄の近隣地域)で、より高い22%の割合です。K2(北東部)およびK3(西部)構成要素は、西部から東部への勾配を示しました。一般的および稀な多様体を用いてADMIXTURE分析も実行され、沖縄からの追加の詳細と共に、一致した結果が観察されました。
一般的な多様体の分析から得られたK値と稀な多様体から得られたPCA-UMAP の分析にも関わらず、K値とPCA-UMAP値との間に有意な相関が観察されました。この調査結果は、K=3の追加の裏づけを提供するようでした。具体的には、UMAP1はK2/K3と有意に相関します。この相関パターンは、その各地域に従った標本集成により明確に視覚化もできます(図1E)。さらに、地理の文脈でK値が分析され、沖縄(K1)と北東部(K2)の祖先系統の割合は地理的経度と相関している、と分かりました。対照的に、西部(K3)との相関はさほど顕著ではなく、統計的に有意ではありません。
本論文は、K1~K3の潜在的な祖先の起源について示唆を得るよう、試みました。先行研究では、日本人は縄文およびEA祖先系統(中国の漢人により表されます)を有している、と示唆されてきました(Watanabe et al., 2021、Jinam et al., 2021)。最近、アジア北東部(Northeast Asian、略してNEA)祖先系統が、古代ゲノムの分析に基づいて提案されました(Cooke et al., 2021、Robbeets et al., 2021)。この文脈で、本論文のデータが縄文時代とEAとNEAの現代人および古代人の遺伝的データとともに分析されました。f₄比統計を用いて、沖縄が最高の縄文祖先系統を有しており(28.5%)、北東部(18.9%)がそれに続き、西部が最低(13.4%)と推定されました。これらの結果は、「縄文人」と沖縄人との間の高い遺伝的類似性を論証した先行研究と一致します(Kanzawa-Kiriyama et al., 2019、Gakuhari et al., 2020)。
次に、外群f₃統計に基づいて、西部の個体群は中国の漢人との遺伝的浮動が最高だった、と観察されました。次に、f₄形式(ムブティ人、古代人;北東部、西部)のf₄統計を使用し、中国と韓国と日本から報告された古代人のゲノム(Cooke et al., 2021、Gakuhari et al., 2020、Ning et al., 2020、Wang et al., 2021、Gelabert et al., 2022)との関連で、北東部と西部との間の異なる遺伝的類似性が評価されました。その結果、西部と黄河(Yellow River、略してYR)流域、具体的には中期新石器時代(Middle Neolithic、略してMN)と後期新石器時代(Late Neolithic、略してLN)の古代中国集団との間で、有意により密接な関係が示唆されました。対照的に、北東部の個体群は、「縄文人」や沖縄の宮古島の古代日本のゲノム(縄文の割合が高くなっています)や朝鮮半島の三国時代(Three Kingdoms、略してTK)の古代人(4~5世紀の韓国-TK_2)と有意により高い遺伝的類似性を示しました。これらの結果は、弥生時代および特定の古墳時代集団の日本の古代人が高い割合の縄文祖先系統を有していた、と示唆した報告(Robbeets et al., 2021、Gelabert et al., 2022)と一致します。
その後、qpAdmを用いて、先行研究(Cooke et al., 2021、Cooke et al., 2023)で説明されている手法に従って、各下位集団におけるNEAとEAと縄文の祖先系統の寄与が推定されました。この分析では、中国の漢人がEAの代償として指定された一方で、中国_西遼河(West Liao River、略してWLR)_青銅器時代(Bronze Age、略してBA)_外れ値(outlier、略してo)と中国_ハミンマンガ(Haminmangha、略してHMMH)遺跡_MNがNEAを表すよう分類されました。その結果、本論文のデータセットへの三重モデルの一般的に良好な適合が明らかになりました。qpAdmを通じて推定された縄文祖先系統の割合と傾向は、f₄比検定の調査結果と一致し、沖縄(25%)における最高の割合と西部(7.5%)における最低の割合を明らかにします。おそらくは西部における低い割合の縄文祖先系統のため、EA祖先系統は西部ではなく南部で最高と観察されました。
しかし、北東部についてこのモデルの適合は却下され、それは極端なP値(0.00065)により示唆されています。追加のモデルを探すと、北東部は韓国-TK_2(68%)と漢人(32%)の2方向混合として代替的にモデル化できる、と分かりました。とくに、本土集団では、北東部は最高の割合の韓国-TK_2を示しました。西部については、NEAとEAと縄文を含む最初の3方向モデルが、カイ二乗値によって示唆されるように、より良好な適合を示しました。さらに、縄文とEAとNEAの組み合わせを含む2方向混合モデル化は失敗した、と証明されました。これら複数の一連の証拠から、K1とK3は縄文およびEA祖先系統と関連しているかもしれない、と示唆されます。さほど明確ではありませんが、K2の祖先起源は、韓国-TK_2など日本列島および朝鮮半島の古代の人口集団とつながっているかもしれません。
上述の調査結果に動機づけられ、この三重祖先の枠組みが日本人の創始者変異の可能性の高い起源への洞察を提供できるのかどうか、調べられました。日本人患者において遺伝性乳癌と関連する、2ヶ所の高頻度の病原性変異、つまりBRCA1 Leu63TerおよびBRCA2 c.5576_5579delTTAAのフレームシフト変異に焦点が当てられました。前者(BRCA1 Leu63Ter)は日本人集団に固有で、西日本よりも東日本において有意に高頻度です。対照的に、後者(BRCA2 c.5576_5579delTTAA)は西日本において高頻度で、中国人と韓国人を含めて他のアジア人集団において報告されてきました。
PCA-UMAP でBRCA1 Leu63Ter保因者を図示すると、この変異はおもに北東部である可能性の高い祖先系統を有する個体群で見られ、その出現はUMAP1とし有意に関連している、と示されました。このパターンは、登録位置を考慮すると明らかではなく、それは、ほとんどの保因者が東部から募集されたからです(保因者9個体のうち7個体は東部から募集され、残りの2個体は北部と北東部からでした)。一方で、BRCA2 c.5576_5579delTTAA変異はおもに西部祖先系統個体群で観察されました。本論文のデータは、日本人10万個体の標本に基づく最近の研究と一致し、BRCA1 Leu63Terが北東部で最高頻度なのに対して、BRCA2フレームシフト変異は西部で最高頻度である、と示します。
本論文のずっと小さな標本規模にも関わらず、稀な多様体に基づく微細構造は、日本人におけるこの2ヶ所の変異の可能性の高い起源への洞察を与えます。このデータから、BRCA1 Leu63Ter変異は北東部祖先系統起源の可能性が焚く、他の地域に拡大した、と示唆されました。ライブの日本人は中国の漢人とより高い遺伝的類似性を有していたので、この変異はアジア大陸部から日本列島へともたらされたかもしれない、と推測されます。さらに、K値が線形回帰に基づいてJEWEL個体群において量的表現型と関連しているのかどうか、調べられました。その結果、とくにK1との総コレステロールおよびプロトロンビン時間について、有意な関連が見つかりました。K2とのこれらの形質の同等のP値も、観察されました。
●LoF多様体とヒト遺伝子欠損
JEWELデータセットにより、日本における臨床的に重要かもしれないタンパク質コード多様体の調査が可能となりました。本論文の分析では、9045個の遺伝子で18481個のLoF多様体が特定され、それには、gnomADもしくはToMMoで登録されていない9780個のLoF多様体が含まれ、これらのうちかなりの割合が稀です(図2A)。これらのLoF多様体は、未成熟な停止コドン(停止コドンの生成)か、コーディング配列を変える小規模な挿入欠失(フレームシフト)か、スプライシング部位に直に隣接する2個のヌクレオチドを変える多様体(スプライシング多様体)を引き起こすかもしれない多様体として定義されます。さらに、177112個の同義多様体と306923個のミスセンス多様体(アミノ酸が変わるような変異)が分類され、それぞれ18651個の遺伝子と19103個の遺伝子に影響を及ぼしました(図2B)。
LoF多様体を保因者のUMAP値とともに調べると、32個と37個の多様体が特定され、その頻度はそれぞれ、UMAP1およびUMAP2と有意に関連していました。北東部の個体群は、他の領域と比較して1標本でしか確認されていない(シングルトン)コーディング多様体の平均数が最低であることに、本論文は気づきました。北東部の標本規模は他の本土地域より小さいので、無作為再標本抽出分析が実行され、この観察は標本規模に起因しない可能性が高い、と確証されました。人口史など他の要因は、とくに人口拡大は、この観察に影響を及ぼすかもしれない、と推測されます。地域的な差異にも関わらず、全領域にわたる1標本でしか確認されていないミスセンス多様体と同義多様体との間の比率(dN/dS)は一貫して2に近く、これはin vivo(遺伝子編集酵素をコードするDNAを直接人体に注入する方法)研究で報告された、新規(de novo、親の生殖細胞もしくは受精卵や早期の胚で起きた変異)のミスセンス多様体と同義多様体の観察された比率です。
さらに、他の報告での観察と一致して、この比率はAF(アレル頻度)と負に相関しており、多くの稀なミスセンスおよび同義多様体は有害かもしれないものの、遺伝子プールに残っている可能性があります。この見解をさらに検証するため、30の異なる注釈付け(annotation)手法から得られた注釈付けの統合により、ミスセンス危険性得点が計算されました。ミスセンス危険性得点は、AFが減少するにつれて増加した、と観察されました。平均的には、シングルトンは最高の危険性得点を示しました。上述のデータに基づくと、一般的な人口集団では稀なミスセンス多様体は、疾患関連分析で優先できるかもしれません。優先順位づけへのこの手法は潜在的な候補を絞り込むことができ、それにより、意味のある臨床関連の特定の可能性を高めます。以下は本論文の図2です。
JEWELにより、日本人集団におけるLoFの観察/予測された上限割合(LoF observed/expected upper-bound fraction、略してLOEUF)得点の潜在的な適用可能性のさらなる評価が可能となりました。LOEUF得点は、gnomAD計画におけるLoF多様体の観察され予測された数に基づいて、LoF多様体への遺伝子耐性の定量化の指標として導入されました(Karczewski et al., 2020)。EA(アジア東部)祖先系統を有する個体群がgnomADデータセットの7%を構成する、ということを考えると、LOEUFがJEWELに適用されるのかどうかの検証に関心があります。最低のLOEUF十分位数区分(LoF多様体にとって最高の耐性を示唆します)はLoFにより最も影響を受けなかった、と観察されました。これは、LoF多様体に高度に不耐性な遺伝子の層序化における、LOEUF得点の有用性を裏づけます。しかし、上位十分位数区分においてLoF多様体により影響を受ける遺伝子の数では、不一致が見つかりました。さらに、LoF多様体により影響を受ける転写産物の割合は、LOEUF区分と有意な正の相関を示した、と観察されました(図2C)。これらの結果は全体的に、LOEUF得点の一般化可能性を裏づけますが、LoF耐性遺伝子との関連で改善の余地があるかもしれないことも認められます。
病原性多様体とヒト遺伝子欠損は、臨床研究および医薬品開発にとってひじょうに貴重で、ヒトの遺伝子型と表現型の関連性を明らかにできるかもしれません。ClinVarの病原性多様体を有する遺伝子において、371個のClinVarに登録された病原性多様体と1723個の未報告のLoF多様体が特定されました。LoF多様体の同型接合体もしくは複合異型接合体として定義される、ヒト遺伝子欠損が検索されました。注釈づけの検査と手動での選別により、臨床的に関連している可能性が高そうな、23個のヒト遺伝子欠損が特定されました。
本論文は、ABCC2(ATP binding cassette subfamily C member 2、アデノシン三リン酸結合領域亜群C構成員2)遺伝子における複合異型接合体LoF多様体の保因者に注目しました。この遺伝子のLoFは、高ビリルビン血症と関連している常染色体劣勢肝疾患である、ドゥビン・ジョンソン(Dubin-Johnson)症候群を引き起こすと知られています。この症候群は通常良性で、患者は血中の総ビリルビンの増加を示し、慢性黄疸につながります。本論文はこの個体の病歴記録と血液検査結果を入手し、ドゥビン・ジョンソン症候群の診断と高ビリルビン血症の臨床症状を確証しました。さらに、非症候性感音性難聴と関連する遺伝子である、GJB2(gap junction protein, beta 2、間隙接合タンパク質β2)を有する3個体のうち2個体は、難聴と確認されました。これらの事例から、JEWELを、疾患の原因である潜在的に可能性の高い病原性多様体の特定と、潜在的に臨床的に関連する遺伝子型と表現型の関連性の発見に使用できる、と論証されます。
上述の従来のヒト遺伝子欠損分析に加えて、JEWELの豊富な表現型データを活用して、LOEUF 得点により示唆されている、LoF多様体には高度に不耐性と考えられている遺伝子において異型接合体のLoF多様体を有する個体群が調べられました。複数のLoF多様体がある遺伝子に焦点を当てると、PTPRD においてLoF多様体を余裕する6個体が特定され、そのうち上位のLOEUF遺伝子のうち1個は、受容体様タンパク質チロシン脱リン酸化酵素をコードしています(図2E)。詳細な臨床情報は、心筋梗塞や腎不全や高血圧や薬疹を含めて、いくつかの共有表現型を示した6個体のうち3個体で得られました(図2F)。
PTPRD遺伝子には13個の転写産物があり、ほとんどのエクソンは同一で、複数の転写産物間で共有されています。しかし、LoF多様体の影響を受けた転写産物は2点だけで、偶然に予測されるよりも有意に少なくなっています。PTPRDの報告されたヒト遺伝子欠損について、文献が検索されました。ある事例報告では、知的障害や三角頭蓋症や難聴と関連していると疑われていた、同型接合体微小欠失を有する子供1人が記載されていました。さらに、Ptprd遺伝子欠損マウスは、不完全な浸透度で離乳前の致死性を示します。これらのデータと低いLOEUF得点を考えると、PTPRDタンパク質の破壊はひじょうに有害かもしれません。しかし、LoFが転写産物の限らりた数にしか影響を及ぼさないか、影響を受けた転写産物がより低い機能的重要性の場合、その結果はより許容できるかもしれません。
さらなるゲノム規模検査は、LoF多様体が転写産物の限定された一式で発生した追加の遺伝子を特定し、それには、2個以上のPTPR亜群遺伝子が含まれ、その両方とも最低のLOEUF区分とPTPRSとPTPRMにあります。この結果から、特定のLoFの表現型の影響は、LoFにとって一般的に不耐性の遺伝子でさえ軽減されるかもしれない、と示唆されます。しかし、無作為ではない標本抽出もしくはLoF転写産物の不正確な注釈づけなど、他の要因も検討されるべきです。日本人集団もしくは他の人口集団からのWGSを用いてのさらなる研究が必要です。上述の事例で見られるように、LoFにより破壊された可能性がある場合の遺伝子機能の全範囲を理解するためには、詳細な臨床データのある遺伝的情報統合する必要性が浮き彫りになります。これらの調査結果から、LoFへの耐性が遺伝子水準だけではなく転写産物水準でも評価されねばならないことも示唆されます。
●ネアンデルタール人とデニソワ人から遺伝子移入された配列
EA(アジア東部)人は、デニソワ人とネアンデルタール人から遺伝子移入された配列を有しています(Browning et al., 2018、Chen et al., 2020)。しかし、遺伝子移入の調査はこれまで、EAの少数の標本に限られてきました。ネアンデルタール人もしくはデニソワ人から遺伝子移入された可能性が高い配列を検出するため、最近開発された確率的手法であるIBDmixが適用され、この手法は現代の参照人口集団を使用しません。個体に基づくと、JEWELの個体はネアンデルタール人由来の配列を約4900万塩基対(49Mb)、デニソワ人由来の配列を約147万塩基対有しています。合計で、ネアンデルタール人から遺伝子移入された可能性の高い3079個の断片と、デニソワ人から遺伝子移入された可能性の高い210個の断片が特定され、それぞれゲノムの772Mbと31.46Mbを網羅します(図3A)。本論文の結果は、1000人ゲノム計画(1000 Genomes project、略して1KGP)の日本人104個体の分析に基づく、以前に報告された(Chen et al., 2020)ネアンデルタール人からの遺伝子移入断片の85%(2843個のうち2414個)を再現しました。
注目すべきことに、ネアンデルタール人からの遺伝子移入領域の47%(3079ヶ所のうち1439ヶ所)は、日本の東京(Tokyo, Japan、略してJPT)のデータセットの1KGP日本人では特定されず、そのうち77%(1439ヶ所のうち1113ヶ所)は稀で、頻度は5%未満でした。JEWELにおける遺伝子移入されたネアンデルタール人断片は、下位地域の違いを明らかにしませんでした。JEWELにおけるデニソワ人からの遺伝子移入が、1KGPデータセットの人口集団や、ともにデニソワ人祖先系統を高い割合で有する(Browning et al., 2018、Larena et al., 2021)パプア人およびフィリピンのアエタ人(Ayta)と比較されました。この分析から、JEWELにおけるデニソワ人的断片はEA人口集団と有意に重複しているものの、統計的有意性はパプア人およびフィリピンのアエタ人では見つからない、と明らかになり、日本人のデニソワ人からの遺伝子移入はパプア人およびフィリピンのアエタ人とは関連性が低かったかもしれない、と示唆されます。以下は本論文の図3です。
その後、BBJから生成されたGWAS 要約統計に基づいて、106個の形質における特定された遺伝子移入配列の表現型の影響が調べられました。49点の表現型と関連する44個の古代型断片が特定され、そのうち2個はデニソワ人、42個はネアンデルタール人に由来します。これらのうち、43個は先行研究との比較で報告されていませんでした。代替的な手法であるSPrimeにより44個の古代型断片のうち39個が検証され、SPrimeにより検出されなかった5個の断片はネアンデルタール人のゲノムと高い一致率を示した、と確証されました。
POLR3E遺伝子におけるデニソワ人から継承された断片は、身長と関連していました。NKX6-1遺伝子における断片は、2型糖尿病(type 2 diabetes、略してT2D)と関連していました。このNKX6-1断片は他の人口集団でも確認されており、パプア人や中国人やフィンランド人が含まれ、中国人では北京の漢人(Han Chinese in Beijing、略してCHB)や中国南部の漢人(Han Chinese South、略してCHS)が含まれています。さらに、この断片における古代型多様体は、FinnGen 計画(Kurki et al., 2023)から得られたGWAS データを用いて、T2Dと関連している、と分かりました。
ネアンデルタール人由来の断片について、7種の疾患と関連する11個の断片が観察され、その疾患とは、虚血性心疾患(coronary artery disease、略してCAD)、慢性扁桃炎(stable angina pectoris、略してSAP)、アトピー性皮膚炎(atopic dermatitis、略してAD)、甲状腺機能亢進症(Graves’ disease、略してGD、バセドウ病)、前立腺癌(prostate cancer、略してPrCa)や関節リウマチ(rheumatoid arthritis、略してRA)です(表1)。経路分析は、上位関連経路として「インスリン分泌の調節」を特定しました。
ADAMTS7遺伝子座において、主要な遺伝子移入された一塩基多型(Single Nucleotide Polymorphism、略してSNP)であるrs11639375は、CADとSAPに対して保護的と報告されました。このSNPは全ての主要な人口集団において高頻度で観察されますが、さらに調べると、日本人のrs11639375はネアンデルタール人から遺伝子移入された可能性が高いハプロタイプ内にあるようです。このハプロタイプは、rs11639375と強い連鎖不平衡(Linkage disequilibrium、略してLD)を示す、39個の潜在的な古代型多様体から構成されます。これらの多様体はEA(アジア東部)人およびラテンアメリカ人にのみ見られ、他の人口集団においては存在しないか極端な低頻度で存在します。これらのデータは、この保護的な多様体rs11639375がかつてEAで失われ、その後で遺伝子移入を通じて回復された、と示唆しているかもしれません。しかし、この仮説を実証するには、さらなる分析が必要です。
AD(アトピー性皮膚炎)の原因多様体であるrs12637953はCCDC80遺伝子座に位置しており、ネアンデルタール人から継承された可能性が高い、と観察されました。この多様体は、コンピュータ予測での機械学習により、CD1a+ランゲルハンス細胞および表皮細胞における転写促進因子の発現水準低下を介して機能するかもしれない、と示唆され、さらに実験的に検証されました。グルカゴン様ペプチド1受容体(glucagon like peptide 1 receptor、略してGLP1R)遺伝子座におけるこの遺伝子移入された断片は、注目に値します。この遺伝子座の多様体は、以前に報告されたように、大規模な日本人のGWAS(191764個体)のT2D(2型糖尿病)とは関連しているものの、ヨーロッパのGWAS(159208個体)のT2Dとは関連していません。本論文の分析を通じて、この主要な多様体は古代型、具体的にはネアンデルタール人起源である可能性が高い、と確認されました。
1KGPデータを用いたさらなる分析では、この遺伝子移入された断片はアジア人に存在するもののヨーロッパ人には存在せず、GWAS兆候における不一致を説明できるかもしれない、と示されました。疾患と関連する古代型断片に加えて、35点の量的形質と関連する37個の異なる断片が特定されました。一例として、凝固作用因子5(coagulation factor V、略してF5)の古代型多様体は、出血形質との正の関連(positive associations with the bleeding trait、略してPT)を示しました(図3C)。注目すべきことに、同じ断片はアイスランド人口集団におけるPTと関連しています(Skov et al., 2020)。重度の新型コロナウイルス感染症(COVID-19)と関連すると報告されているネアンデルタール人由来断片(3蕃染色体の45859651~45909024)は、JEWELでは検出されませんでした(Zeberg, and Pääbo., 2020)。最後に、有意な遺伝子移入された多様体は、ヨーロッパ人と比較してEA人において明確な人口集団特異性を示しました。そのAF(アレル頻度)はヨーロッパと比較してJEWELにおいて有意により高く、日本人集団における中央値のAFは、ヨーロッパ人集団におけるAFの21.5倍です。
●日本人集団における進化的選択の特性
日本人集団における選択の対象となった可能性の高い、候補となるゲノムの遺伝子座を検出するため、二つの手法でゲノム規模精密検査が実行され、その手法とは、統合ハプロタイプ得点(integrated haplotype score、略してiHS)とFastSMCです。FastSMCは、指定された合着(合祖)時間における対での同祖対立遺伝子(identity-by-descent、略してIBD)領域を迅速に特定するよう設計されたASMC演算法の拡張です。IBD共有の推測により、この分析は、最近の正の選択(たとえば、好適なハプロタイプの急速な頻度上昇)を示唆するかもしれない、限られた数の共通祖先から過剰に継承された領域を特定できます。hisにより、ゲノム規模の有意性閾値における正の選択下で3ヶ所の遺伝子座が特定され、それには主要組織適合複合体(major histocompatibility complex、略してMHC)やアルコール脱水素酵素(Alcohol dehydrogenase、略してADH)クラスタ(まとまり)やアルデヒド脱水素酵素2型(Aldehyde dehydrogenase 2、略してALDH2)が含まれます(表2および図4A)。以下は本論文の図4です。
分位・分位図から、体系的な偏りはなかった、と示唆されました。代表的な5ヶ所の地域、つまり西部と東部と北東部と南部と沖縄全体の、選択特性における地域差の可能性がさらに調べられました。本土地域全体では、類似の選択特性が観察されました。しかし、ADHクラスタとALDH2の兆候が沖縄では比較的弱く、ゲノム規模の有意性に達しなかったことに要注意です。これらの違いは、沖縄の限定的な標本規模か、あるいは恐らく、変化する選択圧に起因するかもしれず、さらなる研究が必要です。さらに、補完的手法としてFastSMC手法が用いられ、hisで観察された兆候が検証されました。
まず、密度の最近の合着(density recent coalescence、略してDRC)統計の適合性が評価されました。実証的帰無モデルの密度図と分位・分位図から、ガンマ適合が一般的によく適合するものの、大規模なDRC値を適切に処理できないかもしれず、控えめな近似P値につながるかもしれない、と示唆されました。合計すると、この手法は過去50世代において選択の標的になったかもしれない4ヶ所の候補遺伝子座を特定し、それには、hisで有意な3ヶ所の遺伝子座(ADHとALDH2とMHC)と2番染色体短腕(2p25.3)の候補遺伝子座が含まれます。これら3ヶ所の遺伝子座(ADHとALDH2とMHC)は、先行研究のシングルトン密度得点(singleton density score、略してSDS)手法を用いても検出され、日本人集団について自己免疫系およびアルコール代謝経路での強い選択圧の存在がさらに実証されます。
●考察
本論文では、日本の7ヶ所の異なる地域全体の日本人3256個体の臨床およびWGSデータで構成されるデータセットである、JEWELが生成されました。この包括的な遺伝的データセットにより、日本人集団の集団遺伝学および医療遺伝学に関する未知の領域への探求が可能となります。本論文のいくつかの独特な側面が浮き彫りになります。本論文の分析は日本人の詳細な人口構造を明らかにし、それは「三重起源」モデルを反映し、その裏づけとなります。本論文は、JEWELの臨床的利用の可能性を示し、日本人におけるネアンデルタール人とデニソワ人の遺伝的遺産を調べ、さまざまな表現型との関連を調査し、それらはこれまでで最大の非ヨーロッパ人の分析を構成します。さらに、最近の選択下でのゲノム遺伝子座の特定は、日本人集団における適応的進化の理解を深めます。
JEWELにおける日本全土の多様体の豊富な情報源と標本の包括的な包摂は、PCA-UMAPおよび集団遺伝学的分析と組み合わされて、より洗練された日本人の人口増の構築と日本人集団の三重起源の提案を可能とします。BBJから得られた整列データを用いた以前のPCA-UMAP分析と比較して、WGSの稀な多様体に基づく本論文の分析は、本土の日本人の区別のための解像度向上を提供します。これは、稀な多様体が通常は一般的な多様体よりも新しく現れ、微細規模の遺伝的構造の解明により多くの情報をもたらすことができるからである、と本論文は推論します。本論文の分析では、すべての沖縄の個体はPCA-UMAPで単一のクラスタへと分類されました。これは限定的な標本規模に起因する可能性が高そうで、限定的な標本規模は、沖縄内のさまざまな島の集団の下位集団間の既知の遺伝的異質性を把握できないかもしれません。日本の多様な地域からの標本の組み込みにより、本論文は本土日本人における遺伝的異質性を明らかにし、これは、日本の全47都道府県にまたがる11069個体から得られた整列データを調べた最近の研究(Watanabe et al., 2021)とよく一致します。
日本人集団の祖先起源に関して本論文は、本論文のデータは、広く受け入れられた「二重構造」モデルと最近提案された三重起源モデルを含めて、既存のモデルの文脈で解釈されるべきである、と勧めます。現代日本人集団は在来の狩猟採集民である「縄文人」とアジア大陸部からの稲作農耕の弥生移民の混合により形成された、と提案した二重構造モデルは広く研究されてきており、主要な作業仮説と考えられています。「内部二重構造」と命名された洗練されたモデルでは、複数の移住の波に影響を受けた、「中央軸」の内陸地域と「周縁」の沿岸地域との間に遺伝的差異が存在する、と提案されました。
弥生時代と帝国古墳時代の古代人ゲノムの最近の研究は、さらに洗練されたモデルを導入し、日本人集団は三つの祖先起源、つまり縄文人とNEA(アジア北東部)とEA(アジア東部)を有しているかもしれない、と提案しています(Cooke et al., 2021)。これは、大陸部の祖先系統の可能性の高い起源を具体的に提案する、興味深い仮説です。しかし、一つの限界は、古代人のゲノムの数、とくに弥生時代と古墳時代の数が限定的であることです。結果として、いくらかの不確実性が残り、その仮説は依然として完全には検証されていません。縄文とEA(つまり、中国の漢人)の遺伝的構成要素は、日本人集団のPCAで観察された二重構造のパターンを説明するのに提案されてきました。これと一致して、本論文と先行研究(Watanabe et al., 2021、Jinam et al., 2021)では、沖縄が縄文人とより高い遺伝的類似性を有しているのに対して、西部もしくは西部に近い地域は本土の他地域と比較して、中国人と遺伝的により近い、と示唆されます。
qpAdm分析は、日本人集団の祖先起源の可能性へのさらなる洞察を提供します。本論文では、データセット全体にわたって、縄文とEAとNEAを含めて三重モデルの合理的適合が観察され、例外は北東部です。重要なことに、縄文人とEAとNEAの対での組み合わせを用いての2方向モデルは、成功した結果をもたらしませんでした。この結果は三重祖先モデルへのさらなる裏づけを追加し、伝統的な「二重構造」モデルが不充分かもしれない、と示唆します。西部が中国人とより密接な遺伝的類似性を有している、との観察は、弥生時代の後におけるEA祖先系統を有する人々のかなりの流入と関連しているかもしれず、歴史的証拠は古墳時代と奈良時代にわたる朝鮮半島からの継続的な移住を示唆します。この継続的な流入は、西部(現在の奈良県)において確立した、古墳時代における日本の最初の中央集権的な帝国の形成に役割を果たしたかもしれません。この期間には、中国の影響により特徴づけられる、かなりの技術的および文化的流入もありました。これは、中国式の正当性や言語や教育体系の包括的採用に明らかです。
本論文の分析では、北東部の現代日本人において最高頻度であるK2が、縄文およびEA祖先系統とともに追加の遺伝的起源として機能するかもしれない、と観察されました。この構成要素は西部と比較して、「縄文人」および三国時代朝鮮半島古代人のゲノムと有意により近い遺伝的類似性を有している、と観察されました北東部は三重祖先モデルの代わりに、韓国-TK_2と漢人を用いた2方向混合モデルにより説明できます。注意すべきは、韓国-TK_2が、中国_WLR_BA祖先系統66%と縄文祖先系統34%、もしくはNEA祖先系統32%とEA祖先系統43%と縄文祖先系統25%の三重祖先モデルによりモデル化できることです。これらのデータは、北東部とNEAとの間のつながりの可能性を示唆しているかもしれませんが、このつながりの実証には追加の証拠が必要です。
歴史的記録から、北東部は、文字通り「小柄な野蛮人」と訳される、いわゆる蝦夷の人々が居住していた、と示唆されています。蝦夷の起源はなぜかあまり研究されておらず、議論の余地がありますが、蝦夷はNEAと関連しているかもしれない、と提案されていました。さらに、蝦夷の人々は歴史時代の出雲方言と類似した独特な日本語を話していたかもしれない、と示唆されてきました。さらに、北東部と南部(具体的には、証拠から日本で最初に稲作農耕がもたらされた九州)との間の地理的距離にも関わらず、北東部の北方の在来集団は弥生時代前期にイネを独占的に採用した、と報告されてきました。このつながりは、日本海沿岸でのヒトの移動により促進された可能性があり、弥生時代における北東部と稲作農耕の採用との間の関連を示唆しているかもしれません。韓国-TK_2と漢人を用いた2方向適合モデルは許容可能な適合を論証していますが、それが、歴史的状況と一致しないように見える、大陸部の移民による北東部への縄文祖先系統の導入を示唆していることに要注意です。
三重祖先モデルの適合の失敗は、北東部における縄文祖先系統のより高い割合の結果かもしれず、それは恐らく、より大きな縄文祖先系統を有する在来人口集団との混合か、あるいは124万SNP部位のみを含む予め編集されたAADR(The Allen Ancient DNA Resource、アレン古代DNA情報源)への依存の限界に起因します。塩基転換部位での追加の選別は、分析に利用可能なSNPの数を減少させました。理想的には、この限界は直接的な生の配列決定整列データにより対処されるでしょうが、この広範な分析は本論文の範囲を超えています。さらに、f₄分析は北東部について古代のNEA人口集団で特定の祖先供給源を正確に示しませんでした。この重要な問題は、NEAの新規のより広範で密な標本抽出された古代人ゲノムを最適に含めることで、将来の調査を保証します。本論文は最後に、遺伝学的証拠は、考古学や文化や言語学など他分野のデータとともに調べられるべきと提案します。この学際的手法は、日本人集団の謎めいた先史時代の理解を深めることができます。さらに、二重構造と三重起源の両方のモデルは単純化を表しているものの、後者【三重起源】はいくつかの利点を提供しているかもしれない、と認識すべきです。実際の人口史はより複雑で、さらなる分析を必要とするかもしれません。
本論文は人口構造分析に加えて、JEWELにおけるコーディング多様体を広範に分析しました。遺伝子一式におけるLoF多様体は偶然に予測されるよりも限定的な転写産物に限られており、時には、遺伝子は高度に制約されており、それらのLoF多様体の保因者は共有された臨床表現型を示した、と観察されました。先行研究では、より正確な転写産物水準の注釈づけは、アイソフォーム(基本的な機能に関連するアミノ酸残基は共通しているものの、他の部分のアミノ酸配列は異なるタンパク質)発現データの組み込みにより達成できる、と示されてきました(Cummings et al., 2020)。本論文の結果から、WGSデータは、特定の遺伝子内における転写産物全体にわたるLoFの不耐性の比較により、制約範囲の新たな計量もしくは得点の開発の潜在的な機会を提供する、と示唆されます。本論文は、JEWELで利用可能である広範な臨床的情報は、遺伝子型と表現型との間の潜在的な関連の解明ら効率的に使用できる、と論証してきました。
本論文は、古代型の遺伝子移入された多様体が広範な表現型と関連しており、それには現在の日本人における免疫や代謝の表現型が含まれる、と報告しました。EPAS1(Endothelial PAS Domain Protein 1、内皮PASドメインタンパク質1)遺伝子座における遺伝子移入されたデニソワ人配列は、チベット人の高地環境への適応に役立った、と示されてきました(Huerta-Sánchez et al., 2014、Zhang et al., 2020)。しかし、EPAS1などいくつかの特定の事例を除くと、ヒトの表現型へのデニソワ人からの遺伝子移入の影響は、とくにネアンデルタール人からの遺伝子移入と比較すると、さほど理解されていないままです(Dannemann, and Kelso., 2017、Reilly et al., 2022、Zeberg et al., 2024)。本論文はこの状況で、NKX6-1およびPOLR3Eにおけるデニソワ人由来断片が、それぞれT2D(2型糖尿病)および身長と関連している、と示しました。
先行研究は、公開されている利用可能なBBJのGWAS合計統計と自然に呼び出された古代型多様体を用いて、ネアンデルタール人から遺伝子移入された可能性の高い断片が疾患表現型と関連している、と報告してきました。本論文は全ての報告された調査結果を再現し、追加の43点の関連を報告し、これは表現型と関連した遺伝子移入された数を大きく拡張し、日本人集団における古代型配列の表現型の影響の理解を深めました。とくに、人口集団特異性、およびT2D治療のためのGLP-1と類似した経口セマグルチドの開発を考えると、GLP1RとT2Dのネアンデルタール人由来の多様体間の関連は興味深いものです。将来の研究は、これら古代型頼退のある個体がセマグルチド治療に異なる応答を示すのかどうか調査し、医薬品発見の潜在的な標的となるかもしれない追加の古代型断片の存在を調べるでしょう。本論文はこの特定の事例に加えて、全体的に有意な遺伝子移入された多様体はヨーロッパ人と比較してEA人の人口集団特異性を示す、と論証し、これは、そうした古代型の多様体と表現型の関連がヨーロッパ人のデータの調査のみでは見逃されるかもしれない、と示唆しています。
本論文の選択分析は、SDSとASMCを含めた手法の使用により、日本人集団における最近の選択の痕跡についてのゲノム規模の綿密な調査を補完します。BBJの170882個体に基づく研究では、29ヶ所の候補遺伝子座が、ASMCを用いてのDRC150統計に基づいて、過去150世代において選択下にあった、と示唆されました。さらに、ADHクラスタとMHCを含む2ヶ所の遺伝子座が、iHS手法により特定されました。しかし、DRCに基づく統計を用いてのより最近の時間枠内での選択特性は、まだ調べられていません。本論文の分析から、MHCとADHとALDH2は、hisとFastSMCと以前に報告されたSDSによると、最近の正の選択下にあるもと示唆されます。沖縄と本土の集団間のADH/ALDH2には違いがあるかもしれず、これはさらなる分析を保証する可能性があります。2番染色体の短腕(2p25.3)においても、候補遺伝子座が観察されました。この遺伝子座いくつかの遺伝子は候補遺伝子としての検討を保証しますが、本論文は、特定の遺伝子に焦点を当てる前に、さらなる再現分析を勧めます。
本論文は要するに、微小配列データでは認識できなかった日本人集団の遺伝的特徴を明らかにしてきました。本論文で作成された広範なデータセットは、日本人集団内およびそれを超えて、将来の遺伝学的研究の参照としても役立ちます。本論文は、個別化医療や他の臨床環境におけるWGSの応用の可能性を強調し、遺伝的特徴を解読し、人口集団特有の方法でヒトの歴史をより深く理解するための、WGSの多様な人口集団への拡張の重要性を浮き彫りにしました。
参考文献:
Browning SR. et al.(2018): Analysis of Human Sequence Data Reveals Two Pulses of Archaic Denisovan Admixture. Cell, 173, 1, 53-61.e9.
https://doi.org/10.1016/j.cell.2018.02.031
関連記事
Chen L. et al.(2020): Identifying and Interpreting Apparent Neanderthal Ancestry in African Individuals. Cell, 180, 4, 677–687.E16.
https://doi.org/10.1016/j.cell.2020.01.012
関連記事
Choin J. et al.(2021): Genomic insights into population history and biological adaptation in Oceania. Nature, 592, 7855, 583–589.
https://doi.org/10.1038/s41586-021-03236-5
関連記事
Cooke NP. et al.(2021): Ancient genomics reveals tripartite origins of Japanese populations. Science Advances, 7, 38, eabh2419.
https://doi.org/10.1126/sciadv.abh2419
関連記事
Cooke NP. et al.(2023): Genomic insights into a tripartite ancestry in the Southern Ryukyu Islands. Evolutionary Human Sciences, 5, e23.
https://doi.org/10.1017/ehs.2023.18
関連記事
Cummings BB. et al.(2020): Transcript expression-aware annotation improves rare variant interpretation. Nature, 581, 7809, 452–458.
https://doi.org/10.1038/s41586-020-2329-2
関連記事
Dannemann M, and Kelso J.(2017): The Contribution of Neanderthals to Phenotypic Variation in Modern Humans. The American Journal of Human Genetics, 101, 4, 578-589.
https://doi.org/10.1016/j.ajhg.2017.09.010
関連記事
Gakuhari T. et al.(2020): Ancient Jomon genome sequence analysis sheds light on migration patterns of early East Asian populations. Communications Biology, 3, 437.
https://doi.org/10.1038/s42003-020-01162-2
関連記事
Gelabert P. et al.(2022): Northeastern Asian and Jomon-related genetic structure in the Three Kingdoms period of Gimhae, Korea. Current Biology, 32, 15, 3232–3244.E6.
https://doi.org/10.1016/j.cub.2022.06.004
関連記事
GenomeAsia100K Consortium.(2019): The GenomeAsia 100K Project enables genetic discoveries across Asia. Nature, 576, 7785, 106–111.
https://doi.org/10.1038/s41586-019-1793-z
関連記事
Gudbjartsson DF. et al.(2015): Large-scale whole-genome sequencing of the Icelandic population. Nature Genetics, 47, 5, 435–444.
https://doi.org/10.1038/ng.3247
関連記事
Huerta-Sánchez E. et al.(2014): Altitude adaptation in Tibetans caused by introgression of Denisovan-like DNA. Nature, 512, 7513, 194–197.
https://doi.org/10.1038/nature13408
関連記事
Jinam T. et al.(2021): Genome-wide SNP data of Izumo and Makurazaki populations support inner-dual structure model for origin of Yamato people. Journal of Human Genetics, 66, 7, 681–687.
https://doi.org/10.1038/s10038-020-00898-3
関連記事
Jónsson H. et al.(2017): Parental influence on human germline de novo mutations in 1,548 trios from Iceland. Nature, 549, 7673, 519–522.
https://doi.org/10.1038/nature24018
関連記事
Kanzawa-Kiriyama H. et al.(2019): Late Jomon male and female genome sequences from the Funadomari site in Hokkaido, Japan. Anthropological Science, 127, 2, 83–108.
https://doi.org/10.1537/ase.190415
関連記事
Karczewski KJ. et al.(2020): The mutational constraint spectrum quantified from variation in 141,456 humans. Nature, 581, 7809, 434–443.
https://doi.org/10.1038/s41586-020-2308-7
関連記事
Kurki MI. et al.(2023): FinnGen provides genetic insights from a well-phenotyped isolated population. Nature, 613, 7944, 508–518.
https://doi.org/10.1038/s41586-022-05473-8
関連記事
Larena S. et al.(2021): Philippine Ayta possess the highest level of Denisovan ancestry in the world. Current Biology, 31, 19, 4219–4230.E19.
https://doi.org/10.1016/j.cub.2021.07.022
関連記事
Liu X. et al.(2024): Decoding triancestral origins, archaic introgression, and natural selection in the Japanese population by whole-genome sequencing. Science Advances, 10, 16, eadi8419.
https://doi.org/10.1126/sciadv.adi8419
Mallick S. et al.(2016): The Simons Genome Diversity Project: 300 genomes from 142 diverse populations. Nature, 538, 7624, 201–206.
https://doi.org/10.1038/nature18964
関連記事
Minikel EV. et al.(2020): Evaluating drug targets through human loss-of-function genetic variation. Nature, 581, 7809, 459–464.
https://doi.org/10.1038/s41586-020-2267-z
関連記事
Ning C. et al.(2020): Ancient genomes from northern China suggest links between subsistence changes and human migration. Nature Communications, 11, 2700.
https://doi.org/10.1038/s41467-020-16557-2
関連記事
Reilly PF. et al.(2022): The contribution of Neanderthal introgression to modern human traits. Current Biology, 32, 18, R970–R983.
https://doi.org/10.1016/j.cub.2022.08.027
関連記事
Robbeets M. et al.(2021): Triangulation supports agricultural spread of the Transeurasian languages. Nature, 599, 7886, 616–621.
https://doi.org/10.1038/s41586-021-04108-8
関連記事
Skov L. et al.(2020): The nature of Neanderthal introgression revealed by 27,566 Icelandic genomes. Nature, 582, 7810, 78–83.
https://doi.org/10.1038/s41586-020-2225-9
関連記事
Terao C. et al.(2020): Chromosomal alterations among age-related haematopoietic clones in Japan. Nature, 584, 7819, 130–135.
https://doi.org/10.1038/s41586-020-2426-2
関連記事
Wang CC. et al.(2021): Genomic insights into the formation of human populations in East Asia. Nature, 591, 7850, 413–419.
https://doi.org/10.1038/s41586-021-03336-2
関連記事
Watanabe Y, Isshiki M, and Ohashi J.(2021): Prefecture-level population structure of the Japanese based on SNP genotypes of 11,069 individuals. Journal of Human Genetics, 66, 4, 431–437.
https://doi.org/10.1038/s10038-020-00847-0
関連記事
Zeberg H, and Pääbo S.(2020): The major genetic risk factor for severe COVID-19 is inherited from Neanderthals. Nature, 587, 7835, 610–612.
https://doi.org/10.1038/s41586-020-2818-3
関連記事
Zeberg H, Jakobsson M, and Pääbo S.(2024): The genetic changes that shaped Neandertals, Denisovans, and modern humans. Cell, 187, 5, 1047–1058.
https://doi.org/10.1016/j.cell.2023.12.029
関連記事
Zhang X. et al.(2021): The history and evolution of the Denisovan-EPAS1 haplotype in Tibetans. PNAS, 118, 22, e2020803118.
https://doi.org/10.1073/pnas.2020803118
関連記事
●要約
本論文は、日本全国の3256個体から構成される高深度の全ゲノム配列決定である、JEWELを生成しました。JEWELの分析から、微小配列(マイクロアレイ)データの使用では識別できなかった、日本人集団の遺伝的特徴が明らかになりました。第一に、稀な多様体に基づく分析から、前例のない微細規模の遺伝的構造が明らかになりました。集団遺伝学的分析と合わせると、現在の日本人は3祖先構成要素に分解できます。第二に、未報告の機能喪失(loss-of-function、略してLoF)多様体が特定され、特定の遺伝子について、LoF多様体は偶然に予測されるより限定的な転写産物一式に制約されているようで、タンパク質チロシン脱リン酸化酵素受容体D型(protein tyrosine phosphatase receptor type D、略してPTPRD)が顕著な事例となる、と観察されました。第三に、2型糖尿病と関連するNKX6-1におけるデニソワ人由来断片を含めて、複雑な形質と関連する44点の古代型断片が特定されました。これらの断片のほとんどはアジア東部人に固有です。第四に、最近の自然選択下の候補遺伝子座が特定されました。本論文は全体的に、日本人集団への遺伝的特徴への洞察を提供しました。
●研究史
WGS(全ゲノム配列決定)データセットは、ヒトの遺伝学および生物医学的研究にとって貴重な情報源です。遺伝的多様体の包括的な特性解明を通じて、WGSデータは詳細な分析を可能にしてきました。これらの分析から、ヒトゲノムの差異の特徴への洞察が得られ(Jónsson et al., 2017)、人口集団の複雑な歴史が明らかになり(Mallick et al., 2016、Choin et al., 2021)、進化的適応および正の選択の過程に光が当てられました。遺伝学における応用の点では、WGSデータセットは補完分析に不可欠です。大規模なWGSデータセットにより、多民族もしくは人口集団固有の参照パネルの構築が可能となってきました。微小配列データから遺伝子型決定されていない多様体を正確に推測することにより、補完分析はGWAS(genome-wide association studies、ゲノム規模関連研究)の能力を効率的に高め、詳細なマッピング(多少の違いを許容しつつ、ヒトゲノム配列内の類似性が高い処理を同定する情報処理)を可能とし、民族を超えたメタ分析を促進します。
さらに、WGSデータセットは、稀か、特定の人口集団に固有か、有害もしくは機能喪失(loss-of-function、略してLoF)と予測される多様体を含めて、多様体の豊富な情報源を提供します。これらの多様体は、さまざまな疾患との関連だけではなく、ヒトの遺伝子欠損の影響についても調査でき、生理学的および病理学的両方の過程における機能的役割の特定、したがって医薬品開発の標的としての可能性調査の機会を提供します(Minikel et al., 2020)。したがって、WGSデータセットは、正確な遺伝学的分析および個別化医療の開発に不可欠です。
現在、大規模な人口集団規模のWGSデータはヨーロッパ系子孫の個体群により不均衡に表されており、とりわけ、イギリス生物銀行(United Kingdom Biobank、略してUKB)やフィンランド人ゲノミクス(Finnish Genomic、略してFinnGen)研究(Kurki et al., 2023)やdeCODE社(Gudbjartsson et al., 2015)によって大きな貢献がなされてきました。ゲノムデータにおけるヨーロッパ中心の不均衡は、精密医療の不平等な恩恵をもたらし、健康格差の懸念を引き起こすかもしれません。たとえば、多遺伝子危険性得点は、他の祖先系統(祖先系譜、祖先成分、祖先構成、ancestry)と比較して、ヨーロッパ祖先系統を有する個体群の方に数倍高い精度を示すことがよくありました。
特定の人口集団に対応した個別化医療実施のためのヒトの遺伝的差異のより広範囲の把握の重要性の認識から、精密医療のための横断分野および我々全員計画などで、より多様な民族集団における標本を配列決定するため、協調的な試みがなされてきました。この状況で、注目すべき進歩がアジア東部(East Asian、略してEA)人口集団のWGSデータ生成でもありました。ゲノムアジア10万人(GenomeAsia100K Consortium., 2019)やシンガポール10万人研究計画(SG10K)や中国地図計画や中国の西湖生物銀行など、重要な新構想が確立されてきました。これらの試みはまとめて、EA人口集団におけるより広範囲の遺伝的多様体を明らかにし、それによってこの地域の遺伝的多様性の理解を深めます。
日本人集団のWGSデータに関しては、注目すべき試みが東北医療巨大銀行(Tohoku Medical Megabank、略してToMMo)により行なわれてきました。先行研究では、日本北東部地域から募集された日本人1070個体のWGSが実行されました。この研究は、稀な遺伝的多様体および構造多様体(structural variants、略してSV)を特定し、日本人固有の参照パネルを生成しました。その後、ToMMoなどの配列決定の試みが継続され、日本人3500個体と8300個体に基づく概要水準のアレル(対立遺伝子)頻度(allele frequency、略してAF)が報告されてきました。さらに、増加し続けている個体数に基づくAFデータは、日本人多分野参照パネルデータベースとTogoVarデータベースで利用可能です。これらのデータセットは、日本人集団における遺伝的多様体の一覧表として貴重な情報を提供し、遺伝学的相談の文脈における多様体の解釈に重要です。最近、国立総合施設生物銀行網が、おもに共通対照標本としての使用を目的として、9287個体のWGSデータを公開し、日本人の遺伝的データの情報源をさらに充実させました。
本論文は、JEWEL(全ゲノム配列決定ライブラリ日本百科事典)を生成し、これは、日本生物銀行(Biobank Japan、略してBBJ)の標本を用いた包括的なWGSです。BBJは日本最大の生物銀行の一つで、アジア全域の生物銀行研究の主導的存在です(Terao et al., 2020)。日本の北東部地域の一般的な人口集団に基づくToMMoとは異なり、BBJはゲノム医療研究を推進するための全国規模の生物銀行として設立されました。JEWELは、多様な地理的地域からの標本抽出により、日本人の遺伝的多様性のより適切な把握を目的としています。主成分分析(principal component analysis、略してPCA)は、「(日本列島の本州・四国・九州とそのごく近隣の島々を中心として構成される)本土」クラスタ(まとまり)と琉球クラスタで構成される日本人の二重人口構造を特定してきており、最近の研究は、「本土【以下、「」でくくりません】」日本人内のかなりの遺伝的異質性を浮き彫りにしてきました(Watanabe et al., 2021)。
WGSの使用により、JEWELは詳細な人口構造のさらなる調査への機会を提供します。さらにBBJでは、医療記録とその後の調査と検査を通じて、深い表現型を収集して整理するために、広範な試みが行なわれてきました。これらには、一次および二次の疾患診断、長期の臨床検査結果、過去の病歴、家族の病歴、生存情報が含まれます。結果として、JEWELは疾患と関連するかもしれない病原性多様体が豊富で、詳細な臨床情報により、特定の関心のある保因者を対象とした調査が可能となります。本論文では、一般的および稀な多様体、LoF多様体とヒト遺伝子欠損の特徴づけ、ネアンデルタール人もしくはデニソワ人からの遺伝子移入された可能性が高い古代型断片の同定を用いての、遺伝的構造の再調査を含む、詳細な分析が提示されます。最後に、本論文は、日本人集団において選択の標的となったかもしれない遺伝子座の特定を試みました。
●JEWELのWGSデータセットの特徴
日本全国の7ヶ所の地理的地域の医療機関から登録された合計3256個体が配列決定され、JEWELが生成されました。これらの地域には北海道と東北と関東と中部と関西と九州と沖縄が含まれ、以後はそれぞれ、北部(北海道)と北東部(東北)と東部(関東)と中央部(中部)と西部(関西)と南部(九州)と沖縄(沖縄)と呼ばれます(図1A)。沖縄を除く全地域は日本列島の主要な島々に位置しており、一般的には本土として知られていますが、本論文における沖縄という用語は、琉球諸島を意味します。相対的な標本規模は、日本のこれらの地域の人口規模を比例して反映しています。以下は本論文の図1です。
配列決定は標準的なイルミナ(Illumina)社の実施要綱に従って実行され、平均的なWGS網羅率の深度は25.6倍でした。多様体の呼び出しは、確立されたゲノム解析手法一式(Genome Analysis Toolkit、略してGATK)の最良の慣例に従って行なわれました。最終的なデータセットは、23本の染色体で得られた45586919点の一塩基多様体(Single Nucleotide Variant、略してSNV)と9113420点の挿入もしくは欠失(挿入欠失)から構成されました。多様体の61%と40%は、それぞれゲノム集成データベース(Genome Aggregation Database、略してゲノムAD)とToMMoで記録されておらず(Karczewski et al., 2020)、15410953点(32.7%)の多様体はJEWELでのみ観察されました。
微小配列遺伝子型決定データと比較すると、99.971%の高い遺伝子型一致率が得られました。42389421点の両アレル常染色体SNVを用いて、塩基転換(transversion、略してTv、ピリミジン塩基とプリン塩基との間の置換)に対する塩基転位(transition、略してTi、ピリミジン塩基間もしくはプリン塩基間の置換)の比率は2.11と推定され、これは最近の大規模なWGS分析と一致します。これらの結果から、JEWELデータセットはさまざまな側面において高品質で、この人口集団【日本人集団】の遺伝的特徴のより深い分析が可能になる、と確証されました。
●日本人集団の三重祖先起源
まず、184036点の独立した要約共通多様体に基づいて慣習的なPCAが実行されました。先行研究と一致して、分析は沖縄と「本土」で構成される古典的な「二重クラスタ」構造を再現しました(図1B)。稀な多様体が人口構造の解明により多くの情報をもたらす、と本論文は仮定し、PCA均一多面近似および投影(PCA–Uniform Manifold Approximation and Projection、略してPCA-UMAP)分析が実行され、1835116点の独立した要約された稀な多様体のみが用いられました。この分析は、日本人集団の前例のない微細構造を明らかにしました(図1C)。この構造は「ハチドリ」に似ており、共通多様体に基づいてPCAから得られたパターンを再現しただけではなく、いくつかの注目すべき特徴も浮き彫りにしました。具体的に観察されたのは、(1)本土の下位地域間のより明確な分離、および本土クラスタからの沖縄クラスタのより明確な区別と、(2)薄く狭い領域でクラスタ化した北東部個体群と、(3)西部および南部の個体群の追加の下位クラスタです。
人口構造へのより深い洞察を得るため、一般的な多様体に基づいて教師なしADMIXTURE分析が実行されました。最適なK(系統構成要素数)値を決定するため、手法である、他の推定量と比較して優れた性能を示すと論証されている、「Structure Selector」が用いられましした。この分析では、全ての4測定基準が祖先構成要素の最適な数として3のK値を裏づけます。さらに、badMIXTUREを用いて、適合度が評価され、大きな残差の系統的パターンは観察されず、K=3で全体的に良好な適合が示唆されます。したがって本論文のデータから、日本人集団は3祖先構成要素(以下、K1~K3)の混合により最適にモデル化できる、と示唆されました。K1~K3はそれぞれ、沖縄と北東部と西部で最高でした(図1D)。K1(沖縄)構成要素は本土下位集団では約12%の比較的安定した割合を維持しており、例外は南部(沖縄の近隣地域)で、より高い22%の割合です。K2(北東部)およびK3(西部)構成要素は、西部から東部への勾配を示しました。一般的および稀な多様体を用いてADMIXTURE分析も実行され、沖縄からの追加の詳細と共に、一致した結果が観察されました。
一般的な多様体の分析から得られたK値と稀な多様体から得られたPCA-UMAP の分析にも関わらず、K値とPCA-UMAP値との間に有意な相関が観察されました。この調査結果は、K=3の追加の裏づけを提供するようでした。具体的には、UMAP1はK2/K3と有意に相関します。この相関パターンは、その各地域に従った標本集成により明確に視覚化もできます(図1E)。さらに、地理の文脈でK値が分析され、沖縄(K1)と北東部(K2)の祖先系統の割合は地理的経度と相関している、と分かりました。対照的に、西部(K3)との相関はさほど顕著ではなく、統計的に有意ではありません。
本論文は、K1~K3の潜在的な祖先の起源について示唆を得るよう、試みました。先行研究では、日本人は縄文およびEA祖先系統(中国の漢人により表されます)を有している、と示唆されてきました(Watanabe et al., 2021、Jinam et al., 2021)。最近、アジア北東部(Northeast Asian、略してNEA)祖先系統が、古代ゲノムの分析に基づいて提案されました(Cooke et al., 2021、Robbeets et al., 2021)。この文脈で、本論文のデータが縄文時代とEAとNEAの現代人および古代人の遺伝的データとともに分析されました。f₄比統計を用いて、沖縄が最高の縄文祖先系統を有しており(28.5%)、北東部(18.9%)がそれに続き、西部が最低(13.4%)と推定されました。これらの結果は、「縄文人」と沖縄人との間の高い遺伝的類似性を論証した先行研究と一致します(Kanzawa-Kiriyama et al., 2019、Gakuhari et al., 2020)。
次に、外群f₃統計に基づいて、西部の個体群は中国の漢人との遺伝的浮動が最高だった、と観察されました。次に、f₄形式(ムブティ人、古代人;北東部、西部)のf₄統計を使用し、中国と韓国と日本から報告された古代人のゲノム(Cooke et al., 2021、Gakuhari et al., 2020、Ning et al., 2020、Wang et al., 2021、Gelabert et al., 2022)との関連で、北東部と西部との間の異なる遺伝的類似性が評価されました。その結果、西部と黄河(Yellow River、略してYR)流域、具体的には中期新石器時代(Middle Neolithic、略してMN)と後期新石器時代(Late Neolithic、略してLN)の古代中国集団との間で、有意により密接な関係が示唆されました。対照的に、北東部の個体群は、「縄文人」や沖縄の宮古島の古代日本のゲノム(縄文の割合が高くなっています)や朝鮮半島の三国時代(Three Kingdoms、略してTK)の古代人(4~5世紀の韓国-TK_2)と有意により高い遺伝的類似性を示しました。これらの結果は、弥生時代および特定の古墳時代集団の日本の古代人が高い割合の縄文祖先系統を有していた、と示唆した報告(Robbeets et al., 2021、Gelabert et al., 2022)と一致します。
その後、qpAdmを用いて、先行研究(Cooke et al., 2021、Cooke et al., 2023)で説明されている手法に従って、各下位集団におけるNEAとEAと縄文の祖先系統の寄与が推定されました。この分析では、中国の漢人がEAの代償として指定された一方で、中国_西遼河(West Liao River、略してWLR)_青銅器時代(Bronze Age、略してBA)_外れ値(outlier、略してo)と中国_ハミンマンガ(Haminmangha、略してHMMH)遺跡_MNがNEAを表すよう分類されました。その結果、本論文のデータセットへの三重モデルの一般的に良好な適合が明らかになりました。qpAdmを通じて推定された縄文祖先系統の割合と傾向は、f₄比検定の調査結果と一致し、沖縄(25%)における最高の割合と西部(7.5%)における最低の割合を明らかにします。おそらくは西部における低い割合の縄文祖先系統のため、EA祖先系統は西部ではなく南部で最高と観察されました。
しかし、北東部についてこのモデルの適合は却下され、それは極端なP値(0.00065)により示唆されています。追加のモデルを探すと、北東部は韓国-TK_2(68%)と漢人(32%)の2方向混合として代替的にモデル化できる、と分かりました。とくに、本土集団では、北東部は最高の割合の韓国-TK_2を示しました。西部については、NEAとEAと縄文を含む最初の3方向モデルが、カイ二乗値によって示唆されるように、より良好な適合を示しました。さらに、縄文とEAとNEAの組み合わせを含む2方向混合モデル化は失敗した、と証明されました。これら複数の一連の証拠から、K1とK3は縄文およびEA祖先系統と関連しているかもしれない、と示唆されます。さほど明確ではありませんが、K2の祖先起源は、韓国-TK_2など日本列島および朝鮮半島の古代の人口集団とつながっているかもしれません。
上述の調査結果に動機づけられ、この三重祖先の枠組みが日本人の創始者変異の可能性の高い起源への洞察を提供できるのかどうか、調べられました。日本人患者において遺伝性乳癌と関連する、2ヶ所の高頻度の病原性変異、つまりBRCA1 Leu63TerおよびBRCA2 c.5576_5579delTTAAのフレームシフト変異に焦点が当てられました。前者(BRCA1 Leu63Ter)は日本人集団に固有で、西日本よりも東日本において有意に高頻度です。対照的に、後者(BRCA2 c.5576_5579delTTAA)は西日本において高頻度で、中国人と韓国人を含めて他のアジア人集団において報告されてきました。
PCA-UMAP でBRCA1 Leu63Ter保因者を図示すると、この変異はおもに北東部である可能性の高い祖先系統を有する個体群で見られ、その出現はUMAP1とし有意に関連している、と示されました。このパターンは、登録位置を考慮すると明らかではなく、それは、ほとんどの保因者が東部から募集されたからです(保因者9個体のうち7個体は東部から募集され、残りの2個体は北部と北東部からでした)。一方で、BRCA2 c.5576_5579delTTAA変異はおもに西部祖先系統個体群で観察されました。本論文のデータは、日本人10万個体の標本に基づく最近の研究と一致し、BRCA1 Leu63Terが北東部で最高頻度なのに対して、BRCA2フレームシフト変異は西部で最高頻度である、と示します。
本論文のずっと小さな標本規模にも関わらず、稀な多様体に基づく微細構造は、日本人におけるこの2ヶ所の変異の可能性の高い起源への洞察を与えます。このデータから、BRCA1 Leu63Ter変異は北東部祖先系統起源の可能性が焚く、他の地域に拡大した、と示唆されました。ライブの日本人は中国の漢人とより高い遺伝的類似性を有していたので、この変異はアジア大陸部から日本列島へともたらされたかもしれない、と推測されます。さらに、K値が線形回帰に基づいてJEWEL個体群において量的表現型と関連しているのかどうか、調べられました。その結果、とくにK1との総コレステロールおよびプロトロンビン時間について、有意な関連が見つかりました。K2とのこれらの形質の同等のP値も、観察されました。
●LoF多様体とヒト遺伝子欠損
JEWELデータセットにより、日本における臨床的に重要かもしれないタンパク質コード多様体の調査が可能となりました。本論文の分析では、9045個の遺伝子で18481個のLoF多様体が特定され、それには、gnomADもしくはToMMoで登録されていない9780個のLoF多様体が含まれ、これらのうちかなりの割合が稀です(図2A)。これらのLoF多様体は、未成熟な停止コドン(停止コドンの生成)か、コーディング配列を変える小規模な挿入欠失(フレームシフト)か、スプライシング部位に直に隣接する2個のヌクレオチドを変える多様体(スプライシング多様体)を引き起こすかもしれない多様体として定義されます。さらに、177112個の同義多様体と306923個のミスセンス多様体(アミノ酸が変わるような変異)が分類され、それぞれ18651個の遺伝子と19103個の遺伝子に影響を及ぼしました(図2B)。
LoF多様体を保因者のUMAP値とともに調べると、32個と37個の多様体が特定され、その頻度はそれぞれ、UMAP1およびUMAP2と有意に関連していました。北東部の個体群は、他の領域と比較して1標本でしか確認されていない(シングルトン)コーディング多様体の平均数が最低であることに、本論文は気づきました。北東部の標本規模は他の本土地域より小さいので、無作為再標本抽出分析が実行され、この観察は標本規模に起因しない可能性が高い、と確証されました。人口史など他の要因は、とくに人口拡大は、この観察に影響を及ぼすかもしれない、と推測されます。地域的な差異にも関わらず、全領域にわたる1標本でしか確認されていないミスセンス多様体と同義多様体との間の比率(dN/dS)は一貫して2に近く、これはin vivo(遺伝子編集酵素をコードするDNAを直接人体に注入する方法)研究で報告された、新規(de novo、親の生殖細胞もしくは受精卵や早期の胚で起きた変異)のミスセンス多様体と同義多様体の観察された比率です。
さらに、他の報告での観察と一致して、この比率はAF(アレル頻度)と負に相関しており、多くの稀なミスセンスおよび同義多様体は有害かもしれないものの、遺伝子プールに残っている可能性があります。この見解をさらに検証するため、30の異なる注釈付け(annotation)手法から得られた注釈付けの統合により、ミスセンス危険性得点が計算されました。ミスセンス危険性得点は、AFが減少するにつれて増加した、と観察されました。平均的には、シングルトンは最高の危険性得点を示しました。上述のデータに基づくと、一般的な人口集団では稀なミスセンス多様体は、疾患関連分析で優先できるかもしれません。優先順位づけへのこの手法は潜在的な候補を絞り込むことができ、それにより、意味のある臨床関連の特定の可能性を高めます。以下は本論文の図2です。
JEWELにより、日本人集団におけるLoFの観察/予測された上限割合(LoF observed/expected upper-bound fraction、略してLOEUF)得点の潜在的な適用可能性のさらなる評価が可能となりました。LOEUF得点は、gnomAD計画におけるLoF多様体の観察され予測された数に基づいて、LoF多様体への遺伝子耐性の定量化の指標として導入されました(Karczewski et al., 2020)。EA(アジア東部)祖先系統を有する個体群がgnomADデータセットの7%を構成する、ということを考えると、LOEUFがJEWELに適用されるのかどうかの検証に関心があります。最低のLOEUF十分位数区分(LoF多様体にとって最高の耐性を示唆します)はLoFにより最も影響を受けなかった、と観察されました。これは、LoF多様体に高度に不耐性な遺伝子の層序化における、LOEUF得点の有用性を裏づけます。しかし、上位十分位数区分においてLoF多様体により影響を受ける遺伝子の数では、不一致が見つかりました。さらに、LoF多様体により影響を受ける転写産物の割合は、LOEUF区分と有意な正の相関を示した、と観察されました(図2C)。これらの結果は全体的に、LOEUF得点の一般化可能性を裏づけますが、LoF耐性遺伝子との関連で改善の余地があるかもしれないことも認められます。
病原性多様体とヒト遺伝子欠損は、臨床研究および医薬品開発にとってひじょうに貴重で、ヒトの遺伝子型と表現型の関連性を明らかにできるかもしれません。ClinVarの病原性多様体を有する遺伝子において、371個のClinVarに登録された病原性多様体と1723個の未報告のLoF多様体が特定されました。LoF多様体の同型接合体もしくは複合異型接合体として定義される、ヒト遺伝子欠損が検索されました。注釈づけの検査と手動での選別により、臨床的に関連している可能性が高そうな、23個のヒト遺伝子欠損が特定されました。
本論文は、ABCC2(ATP binding cassette subfamily C member 2、アデノシン三リン酸結合領域亜群C構成員2)遺伝子における複合異型接合体LoF多様体の保因者に注目しました。この遺伝子のLoFは、高ビリルビン血症と関連している常染色体劣勢肝疾患である、ドゥビン・ジョンソン(Dubin-Johnson)症候群を引き起こすと知られています。この症候群は通常良性で、患者は血中の総ビリルビンの増加を示し、慢性黄疸につながります。本論文はこの個体の病歴記録と血液検査結果を入手し、ドゥビン・ジョンソン症候群の診断と高ビリルビン血症の臨床症状を確証しました。さらに、非症候性感音性難聴と関連する遺伝子である、GJB2(gap junction protein, beta 2、間隙接合タンパク質β2)を有する3個体のうち2個体は、難聴と確認されました。これらの事例から、JEWELを、疾患の原因である潜在的に可能性の高い病原性多様体の特定と、潜在的に臨床的に関連する遺伝子型と表現型の関連性の発見に使用できる、と論証されます。
上述の従来のヒト遺伝子欠損分析に加えて、JEWELの豊富な表現型データを活用して、LOEUF 得点により示唆されている、LoF多様体には高度に不耐性と考えられている遺伝子において異型接合体のLoF多様体を有する個体群が調べられました。複数のLoF多様体がある遺伝子に焦点を当てると、PTPRD においてLoF多様体を余裕する6個体が特定され、そのうち上位のLOEUF遺伝子のうち1個は、受容体様タンパク質チロシン脱リン酸化酵素をコードしています(図2E)。詳細な臨床情報は、心筋梗塞や腎不全や高血圧や薬疹を含めて、いくつかの共有表現型を示した6個体のうち3個体で得られました(図2F)。
PTPRD遺伝子には13個の転写産物があり、ほとんどのエクソンは同一で、複数の転写産物間で共有されています。しかし、LoF多様体の影響を受けた転写産物は2点だけで、偶然に予測されるよりも有意に少なくなっています。PTPRDの報告されたヒト遺伝子欠損について、文献が検索されました。ある事例報告では、知的障害や三角頭蓋症や難聴と関連していると疑われていた、同型接合体微小欠失を有する子供1人が記載されていました。さらに、Ptprd遺伝子欠損マウスは、不完全な浸透度で離乳前の致死性を示します。これらのデータと低いLOEUF得点を考えると、PTPRDタンパク質の破壊はひじょうに有害かもしれません。しかし、LoFが転写産物の限らりた数にしか影響を及ぼさないか、影響を受けた転写産物がより低い機能的重要性の場合、その結果はより許容できるかもしれません。
さらなるゲノム規模検査は、LoF多様体が転写産物の限定された一式で発生した追加の遺伝子を特定し、それには、2個以上のPTPR亜群遺伝子が含まれ、その両方とも最低のLOEUF区分とPTPRSとPTPRMにあります。この結果から、特定のLoFの表現型の影響は、LoFにとって一般的に不耐性の遺伝子でさえ軽減されるかもしれない、と示唆されます。しかし、無作為ではない標本抽出もしくはLoF転写産物の不正確な注釈づけなど、他の要因も検討されるべきです。日本人集団もしくは他の人口集団からのWGSを用いてのさらなる研究が必要です。上述の事例で見られるように、LoFにより破壊された可能性がある場合の遺伝子機能の全範囲を理解するためには、詳細な臨床データのある遺伝的情報統合する必要性が浮き彫りになります。これらの調査結果から、LoFへの耐性が遺伝子水準だけではなく転写産物水準でも評価されねばならないことも示唆されます。
●ネアンデルタール人とデニソワ人から遺伝子移入された配列
EA(アジア東部)人は、デニソワ人とネアンデルタール人から遺伝子移入された配列を有しています(Browning et al., 2018、Chen et al., 2020)。しかし、遺伝子移入の調査はこれまで、EAの少数の標本に限られてきました。ネアンデルタール人もしくはデニソワ人から遺伝子移入された可能性が高い配列を検出するため、最近開発された確率的手法であるIBDmixが適用され、この手法は現代の参照人口集団を使用しません。個体に基づくと、JEWELの個体はネアンデルタール人由来の配列を約4900万塩基対(49Mb)、デニソワ人由来の配列を約147万塩基対有しています。合計で、ネアンデルタール人から遺伝子移入された可能性の高い3079個の断片と、デニソワ人から遺伝子移入された可能性の高い210個の断片が特定され、それぞれゲノムの772Mbと31.46Mbを網羅します(図3A)。本論文の結果は、1000人ゲノム計画(1000 Genomes project、略して1KGP)の日本人104個体の分析に基づく、以前に報告された(Chen et al., 2020)ネアンデルタール人からの遺伝子移入断片の85%(2843個のうち2414個)を再現しました。
注目すべきことに、ネアンデルタール人からの遺伝子移入領域の47%(3079ヶ所のうち1439ヶ所)は、日本の東京(Tokyo, Japan、略してJPT)のデータセットの1KGP日本人では特定されず、そのうち77%(1439ヶ所のうち1113ヶ所)は稀で、頻度は5%未満でした。JEWELにおける遺伝子移入されたネアンデルタール人断片は、下位地域の違いを明らかにしませんでした。JEWELにおけるデニソワ人からの遺伝子移入が、1KGPデータセットの人口集団や、ともにデニソワ人祖先系統を高い割合で有する(Browning et al., 2018、Larena et al., 2021)パプア人およびフィリピンのアエタ人(Ayta)と比較されました。この分析から、JEWELにおけるデニソワ人的断片はEA人口集団と有意に重複しているものの、統計的有意性はパプア人およびフィリピンのアエタ人では見つからない、と明らかになり、日本人のデニソワ人からの遺伝子移入はパプア人およびフィリピンのアエタ人とは関連性が低かったかもしれない、と示唆されます。以下は本論文の図3です。
その後、BBJから生成されたGWAS 要約統計に基づいて、106個の形質における特定された遺伝子移入配列の表現型の影響が調べられました。49点の表現型と関連する44個の古代型断片が特定され、そのうち2個はデニソワ人、42個はネアンデルタール人に由来します。これらのうち、43個は先行研究との比較で報告されていませんでした。代替的な手法であるSPrimeにより44個の古代型断片のうち39個が検証され、SPrimeにより検出されなかった5個の断片はネアンデルタール人のゲノムと高い一致率を示した、と確証されました。
POLR3E遺伝子におけるデニソワ人から継承された断片は、身長と関連していました。NKX6-1遺伝子における断片は、2型糖尿病(type 2 diabetes、略してT2D)と関連していました。このNKX6-1断片は他の人口集団でも確認されており、パプア人や中国人やフィンランド人が含まれ、中国人では北京の漢人(Han Chinese in Beijing、略してCHB)や中国南部の漢人(Han Chinese South、略してCHS)が含まれています。さらに、この断片における古代型多様体は、FinnGen 計画(Kurki et al., 2023)から得られたGWAS データを用いて、T2Dと関連している、と分かりました。
ネアンデルタール人由来の断片について、7種の疾患と関連する11個の断片が観察され、その疾患とは、虚血性心疾患(coronary artery disease、略してCAD)、慢性扁桃炎(stable angina pectoris、略してSAP)、アトピー性皮膚炎(atopic dermatitis、略してAD)、甲状腺機能亢進症(Graves’ disease、略してGD、バセドウ病)、前立腺癌(prostate cancer、略してPrCa)や関節リウマチ(rheumatoid arthritis、略してRA)です(表1)。経路分析は、上位関連経路として「インスリン分泌の調節」を特定しました。
ADAMTS7遺伝子座において、主要な遺伝子移入された一塩基多型(Single Nucleotide Polymorphism、略してSNP)であるrs11639375は、CADとSAPに対して保護的と報告されました。このSNPは全ての主要な人口集団において高頻度で観察されますが、さらに調べると、日本人のrs11639375はネアンデルタール人から遺伝子移入された可能性が高いハプロタイプ内にあるようです。このハプロタイプは、rs11639375と強い連鎖不平衡(Linkage disequilibrium、略してLD)を示す、39個の潜在的な古代型多様体から構成されます。これらの多様体はEA(アジア東部)人およびラテンアメリカ人にのみ見られ、他の人口集団においては存在しないか極端な低頻度で存在します。これらのデータは、この保護的な多様体rs11639375がかつてEAで失われ、その後で遺伝子移入を通じて回復された、と示唆しているかもしれません。しかし、この仮説を実証するには、さらなる分析が必要です。
AD(アトピー性皮膚炎)の原因多様体であるrs12637953はCCDC80遺伝子座に位置しており、ネアンデルタール人から継承された可能性が高い、と観察されました。この多様体は、コンピュータ予測での機械学習により、CD1a+ランゲルハンス細胞および表皮細胞における転写促進因子の発現水準低下を介して機能するかもしれない、と示唆され、さらに実験的に検証されました。グルカゴン様ペプチド1受容体(glucagon like peptide 1 receptor、略してGLP1R)遺伝子座におけるこの遺伝子移入された断片は、注目に値します。この遺伝子座の多様体は、以前に報告されたように、大規模な日本人のGWAS(191764個体)のT2D(2型糖尿病)とは関連しているものの、ヨーロッパのGWAS(159208個体)のT2Dとは関連していません。本論文の分析を通じて、この主要な多様体は古代型、具体的にはネアンデルタール人起源である可能性が高い、と確認されました。
1KGPデータを用いたさらなる分析では、この遺伝子移入された断片はアジア人に存在するもののヨーロッパ人には存在せず、GWAS兆候における不一致を説明できるかもしれない、と示されました。疾患と関連する古代型断片に加えて、35点の量的形質と関連する37個の異なる断片が特定されました。一例として、凝固作用因子5(coagulation factor V、略してF5)の古代型多様体は、出血形質との正の関連(positive associations with the bleeding trait、略してPT)を示しました(図3C)。注目すべきことに、同じ断片はアイスランド人口集団におけるPTと関連しています(Skov et al., 2020)。重度の新型コロナウイルス感染症(COVID-19)と関連すると報告されているネアンデルタール人由来断片(3蕃染色体の45859651~45909024)は、JEWELでは検出されませんでした(Zeberg, and Pääbo., 2020)。最後に、有意な遺伝子移入された多様体は、ヨーロッパ人と比較してEA人において明確な人口集団特異性を示しました。そのAF(アレル頻度)はヨーロッパと比較してJEWELにおいて有意により高く、日本人集団における中央値のAFは、ヨーロッパ人集団におけるAFの21.5倍です。
●日本人集団における進化的選択の特性
日本人集団における選択の対象となった可能性の高い、候補となるゲノムの遺伝子座を検出するため、二つの手法でゲノム規模精密検査が実行され、その手法とは、統合ハプロタイプ得点(integrated haplotype score、略してiHS)とFastSMCです。FastSMCは、指定された合着(合祖)時間における対での同祖対立遺伝子(identity-by-descent、略してIBD)領域を迅速に特定するよう設計されたASMC演算法の拡張です。IBD共有の推測により、この分析は、最近の正の選択(たとえば、好適なハプロタイプの急速な頻度上昇)を示唆するかもしれない、限られた数の共通祖先から過剰に継承された領域を特定できます。hisにより、ゲノム規模の有意性閾値における正の選択下で3ヶ所の遺伝子座が特定され、それには主要組織適合複合体(major histocompatibility complex、略してMHC)やアルコール脱水素酵素(Alcohol dehydrogenase、略してADH)クラスタ(まとまり)やアルデヒド脱水素酵素2型(Aldehyde dehydrogenase 2、略してALDH2)が含まれます(表2および図4A)。以下は本論文の図4です。
分位・分位図から、体系的な偏りはなかった、と示唆されました。代表的な5ヶ所の地域、つまり西部と東部と北東部と南部と沖縄全体の、選択特性における地域差の可能性がさらに調べられました。本土地域全体では、類似の選択特性が観察されました。しかし、ADHクラスタとALDH2の兆候が沖縄では比較的弱く、ゲノム規模の有意性に達しなかったことに要注意です。これらの違いは、沖縄の限定的な標本規模か、あるいは恐らく、変化する選択圧に起因するかもしれず、さらなる研究が必要です。さらに、補完的手法としてFastSMC手法が用いられ、hisで観察された兆候が検証されました。
まず、密度の最近の合着(density recent coalescence、略してDRC)統計の適合性が評価されました。実証的帰無モデルの密度図と分位・分位図から、ガンマ適合が一般的によく適合するものの、大規模なDRC値を適切に処理できないかもしれず、控えめな近似P値につながるかもしれない、と示唆されました。合計すると、この手法は過去50世代において選択の標的になったかもしれない4ヶ所の候補遺伝子座を特定し、それには、hisで有意な3ヶ所の遺伝子座(ADHとALDH2とMHC)と2番染色体短腕(2p25.3)の候補遺伝子座が含まれます。これら3ヶ所の遺伝子座(ADHとALDH2とMHC)は、先行研究のシングルトン密度得点(singleton density score、略してSDS)手法を用いても検出され、日本人集団について自己免疫系およびアルコール代謝経路での強い選択圧の存在がさらに実証されます。
●考察
本論文では、日本の7ヶ所の異なる地域全体の日本人3256個体の臨床およびWGSデータで構成されるデータセットである、JEWELが生成されました。この包括的な遺伝的データセットにより、日本人集団の集団遺伝学および医療遺伝学に関する未知の領域への探求が可能となります。本論文のいくつかの独特な側面が浮き彫りになります。本論文の分析は日本人の詳細な人口構造を明らかにし、それは「三重起源」モデルを反映し、その裏づけとなります。本論文は、JEWELの臨床的利用の可能性を示し、日本人におけるネアンデルタール人とデニソワ人の遺伝的遺産を調べ、さまざまな表現型との関連を調査し、それらはこれまでで最大の非ヨーロッパ人の分析を構成します。さらに、最近の選択下でのゲノム遺伝子座の特定は、日本人集団における適応的進化の理解を深めます。
JEWELにおける日本全土の多様体の豊富な情報源と標本の包括的な包摂は、PCA-UMAPおよび集団遺伝学的分析と組み合わされて、より洗練された日本人の人口増の構築と日本人集団の三重起源の提案を可能とします。BBJから得られた整列データを用いた以前のPCA-UMAP分析と比較して、WGSの稀な多様体に基づく本論文の分析は、本土の日本人の区別のための解像度向上を提供します。これは、稀な多様体が通常は一般的な多様体よりも新しく現れ、微細規模の遺伝的構造の解明により多くの情報をもたらすことができるからである、と本論文は推論します。本論文の分析では、すべての沖縄の個体はPCA-UMAPで単一のクラスタへと分類されました。これは限定的な標本規模に起因する可能性が高そうで、限定的な標本規模は、沖縄内のさまざまな島の集団の下位集団間の既知の遺伝的異質性を把握できないかもしれません。日本の多様な地域からの標本の組み込みにより、本論文は本土日本人における遺伝的異質性を明らかにし、これは、日本の全47都道府県にまたがる11069個体から得られた整列データを調べた最近の研究(Watanabe et al., 2021)とよく一致します。
日本人集団の祖先起源に関して本論文は、本論文のデータは、広く受け入れられた「二重構造」モデルと最近提案された三重起源モデルを含めて、既存のモデルの文脈で解釈されるべきである、と勧めます。現代日本人集団は在来の狩猟採集民である「縄文人」とアジア大陸部からの稲作農耕の弥生移民の混合により形成された、と提案した二重構造モデルは広く研究されてきており、主要な作業仮説と考えられています。「内部二重構造」と命名された洗練されたモデルでは、複数の移住の波に影響を受けた、「中央軸」の内陸地域と「周縁」の沿岸地域との間に遺伝的差異が存在する、と提案されました。
弥生時代と帝国古墳時代の古代人ゲノムの最近の研究は、さらに洗練されたモデルを導入し、日本人集団は三つの祖先起源、つまり縄文人とNEA(アジア北東部)とEA(アジア東部)を有しているかもしれない、と提案しています(Cooke et al., 2021)。これは、大陸部の祖先系統の可能性の高い起源を具体的に提案する、興味深い仮説です。しかし、一つの限界は、古代人のゲノムの数、とくに弥生時代と古墳時代の数が限定的であることです。結果として、いくらかの不確実性が残り、その仮説は依然として完全には検証されていません。縄文とEA(つまり、中国の漢人)の遺伝的構成要素は、日本人集団のPCAで観察された二重構造のパターンを説明するのに提案されてきました。これと一致して、本論文と先行研究(Watanabe et al., 2021、Jinam et al., 2021)では、沖縄が縄文人とより高い遺伝的類似性を有しているのに対して、西部もしくは西部に近い地域は本土の他地域と比較して、中国人と遺伝的により近い、と示唆されます。
qpAdm分析は、日本人集団の祖先起源の可能性へのさらなる洞察を提供します。本論文では、データセット全体にわたって、縄文とEAとNEAを含めて三重モデルの合理的適合が観察され、例外は北東部です。重要なことに、縄文人とEAとNEAの対での組み合わせを用いての2方向モデルは、成功した結果をもたらしませんでした。この結果は三重祖先モデルへのさらなる裏づけを追加し、伝統的な「二重構造」モデルが不充分かもしれない、と示唆します。西部が中国人とより密接な遺伝的類似性を有している、との観察は、弥生時代の後におけるEA祖先系統を有する人々のかなりの流入と関連しているかもしれず、歴史的証拠は古墳時代と奈良時代にわたる朝鮮半島からの継続的な移住を示唆します。この継続的な流入は、西部(現在の奈良県)において確立した、古墳時代における日本の最初の中央集権的な帝国の形成に役割を果たしたかもしれません。この期間には、中国の影響により特徴づけられる、かなりの技術的および文化的流入もありました。これは、中国式の正当性や言語や教育体系の包括的採用に明らかです。
本論文の分析では、北東部の現代日本人において最高頻度であるK2が、縄文およびEA祖先系統とともに追加の遺伝的起源として機能するかもしれない、と観察されました。この構成要素は西部と比較して、「縄文人」および三国時代朝鮮半島古代人のゲノムと有意により近い遺伝的類似性を有している、と観察されました北東部は三重祖先モデルの代わりに、韓国-TK_2と漢人を用いた2方向混合モデルにより説明できます。注意すべきは、韓国-TK_2が、中国_WLR_BA祖先系統66%と縄文祖先系統34%、もしくはNEA祖先系統32%とEA祖先系統43%と縄文祖先系統25%の三重祖先モデルによりモデル化できることです。これらのデータは、北東部とNEAとの間のつながりの可能性を示唆しているかもしれませんが、このつながりの実証には追加の証拠が必要です。
歴史的記録から、北東部は、文字通り「小柄な野蛮人」と訳される、いわゆる蝦夷の人々が居住していた、と示唆されています。蝦夷の起源はなぜかあまり研究されておらず、議論の余地がありますが、蝦夷はNEAと関連しているかもしれない、と提案されていました。さらに、蝦夷の人々は歴史時代の出雲方言と類似した独特な日本語を話していたかもしれない、と示唆されてきました。さらに、北東部と南部(具体的には、証拠から日本で最初に稲作農耕がもたらされた九州)との間の地理的距離にも関わらず、北東部の北方の在来集団は弥生時代前期にイネを独占的に採用した、と報告されてきました。このつながりは、日本海沿岸でのヒトの移動により促進された可能性があり、弥生時代における北東部と稲作農耕の採用との間の関連を示唆しているかもしれません。韓国-TK_2と漢人を用いた2方向適合モデルは許容可能な適合を論証していますが、それが、歴史的状況と一致しないように見える、大陸部の移民による北東部への縄文祖先系統の導入を示唆していることに要注意です。
三重祖先モデルの適合の失敗は、北東部における縄文祖先系統のより高い割合の結果かもしれず、それは恐らく、より大きな縄文祖先系統を有する在来人口集団との混合か、あるいは124万SNP部位のみを含む予め編集されたAADR(The Allen Ancient DNA Resource、アレン古代DNA情報源)への依存の限界に起因します。塩基転換部位での追加の選別は、分析に利用可能なSNPの数を減少させました。理想的には、この限界は直接的な生の配列決定整列データにより対処されるでしょうが、この広範な分析は本論文の範囲を超えています。さらに、f₄分析は北東部について古代のNEA人口集団で特定の祖先供給源を正確に示しませんでした。この重要な問題は、NEAの新規のより広範で密な標本抽出された古代人ゲノムを最適に含めることで、将来の調査を保証します。本論文は最後に、遺伝学的証拠は、考古学や文化や言語学など他分野のデータとともに調べられるべきと提案します。この学際的手法は、日本人集団の謎めいた先史時代の理解を深めることができます。さらに、二重構造と三重起源の両方のモデルは単純化を表しているものの、後者【三重起源】はいくつかの利点を提供しているかもしれない、と認識すべきです。実際の人口史はより複雑で、さらなる分析を必要とするかもしれません。
本論文は人口構造分析に加えて、JEWELにおけるコーディング多様体を広範に分析しました。遺伝子一式におけるLoF多様体は偶然に予測されるよりも限定的な転写産物に限られており、時には、遺伝子は高度に制約されており、それらのLoF多様体の保因者は共有された臨床表現型を示した、と観察されました。先行研究では、より正確な転写産物水準の注釈づけは、アイソフォーム(基本的な機能に関連するアミノ酸残基は共通しているものの、他の部分のアミノ酸配列は異なるタンパク質)発現データの組み込みにより達成できる、と示されてきました(Cummings et al., 2020)。本論文の結果から、WGSデータは、特定の遺伝子内における転写産物全体にわたるLoFの不耐性の比較により、制約範囲の新たな計量もしくは得点の開発の潜在的な機会を提供する、と示唆されます。本論文は、JEWELで利用可能である広範な臨床的情報は、遺伝子型と表現型との間の潜在的な関連の解明ら効率的に使用できる、と論証してきました。
本論文は、古代型の遺伝子移入された多様体が広範な表現型と関連しており、それには現在の日本人における免疫や代謝の表現型が含まれる、と報告しました。EPAS1(Endothelial PAS Domain Protein 1、内皮PASドメインタンパク質1)遺伝子座における遺伝子移入されたデニソワ人配列は、チベット人の高地環境への適応に役立った、と示されてきました(Huerta-Sánchez et al., 2014、Zhang et al., 2020)。しかし、EPAS1などいくつかの特定の事例を除くと、ヒトの表現型へのデニソワ人からの遺伝子移入の影響は、とくにネアンデルタール人からの遺伝子移入と比較すると、さほど理解されていないままです(Dannemann, and Kelso., 2017、Reilly et al., 2022、Zeberg et al., 2024)。本論文はこの状況で、NKX6-1およびPOLR3Eにおけるデニソワ人由来断片が、それぞれT2D(2型糖尿病)および身長と関連している、と示しました。
先行研究は、公開されている利用可能なBBJのGWAS合計統計と自然に呼び出された古代型多様体を用いて、ネアンデルタール人から遺伝子移入された可能性の高い断片が疾患表現型と関連している、と報告してきました。本論文は全ての報告された調査結果を再現し、追加の43点の関連を報告し、これは表現型と関連した遺伝子移入された数を大きく拡張し、日本人集団における古代型配列の表現型の影響の理解を深めました。とくに、人口集団特異性、およびT2D治療のためのGLP-1と類似した経口セマグルチドの開発を考えると、GLP1RとT2Dのネアンデルタール人由来の多様体間の関連は興味深いものです。将来の研究は、これら古代型頼退のある個体がセマグルチド治療に異なる応答を示すのかどうか調査し、医薬品発見の潜在的な標的となるかもしれない追加の古代型断片の存在を調べるでしょう。本論文はこの特定の事例に加えて、全体的に有意な遺伝子移入された多様体はヨーロッパ人と比較してEA人の人口集団特異性を示す、と論証し、これは、そうした古代型の多様体と表現型の関連がヨーロッパ人のデータの調査のみでは見逃されるかもしれない、と示唆しています。
本論文の選択分析は、SDSとASMCを含めた手法の使用により、日本人集団における最近の選択の痕跡についてのゲノム規模の綿密な調査を補完します。BBJの170882個体に基づく研究では、29ヶ所の候補遺伝子座が、ASMCを用いてのDRC150統計に基づいて、過去150世代において選択下にあった、と示唆されました。さらに、ADHクラスタとMHCを含む2ヶ所の遺伝子座が、iHS手法により特定されました。しかし、DRCに基づく統計を用いてのより最近の時間枠内での選択特性は、まだ調べられていません。本論文の分析から、MHCとADHとALDH2は、hisとFastSMCと以前に報告されたSDSによると、最近の正の選択下にあるもと示唆されます。沖縄と本土の集団間のADH/ALDH2には違いがあるかもしれず、これはさらなる分析を保証する可能性があります。2番染色体の短腕(2p25.3)においても、候補遺伝子座が観察されました。この遺伝子座いくつかの遺伝子は候補遺伝子としての検討を保証しますが、本論文は、特定の遺伝子に焦点を当てる前に、さらなる再現分析を勧めます。
本論文は要するに、微小配列データでは認識できなかった日本人集団の遺伝的特徴を明らかにしてきました。本論文で作成された広範なデータセットは、日本人集団内およびそれを超えて、将来の遺伝学的研究の参照としても役立ちます。本論文は、個別化医療や他の臨床環境におけるWGSの応用の可能性を強調し、遺伝的特徴を解読し、人口集団特有の方法でヒトの歴史をより深く理解するための、WGSの多様な人口集団への拡張の重要性を浮き彫りにしました。
参考文献:
Browning SR. et al.(2018): Analysis of Human Sequence Data Reveals Two Pulses of Archaic Denisovan Admixture. Cell, 173, 1, 53-61.e9.
https://doi.org/10.1016/j.cell.2018.02.031
関連記事
Chen L. et al.(2020): Identifying and Interpreting Apparent Neanderthal Ancestry in African Individuals. Cell, 180, 4, 677–687.E16.
https://doi.org/10.1016/j.cell.2020.01.012
関連記事
Choin J. et al.(2021): Genomic insights into population history and biological adaptation in Oceania. Nature, 592, 7855, 583–589.
https://doi.org/10.1038/s41586-021-03236-5
関連記事
Cooke NP. et al.(2021): Ancient genomics reveals tripartite origins of Japanese populations. Science Advances, 7, 38, eabh2419.
https://doi.org/10.1126/sciadv.abh2419
関連記事
Cooke NP. et al.(2023): Genomic insights into a tripartite ancestry in the Southern Ryukyu Islands. Evolutionary Human Sciences, 5, e23.
https://doi.org/10.1017/ehs.2023.18
関連記事
Cummings BB. et al.(2020): Transcript expression-aware annotation improves rare variant interpretation. Nature, 581, 7809, 452–458.
https://doi.org/10.1038/s41586-020-2329-2
関連記事
Dannemann M, and Kelso J.(2017): The Contribution of Neanderthals to Phenotypic Variation in Modern Humans. The American Journal of Human Genetics, 101, 4, 578-589.
https://doi.org/10.1016/j.ajhg.2017.09.010
関連記事
Gakuhari T. et al.(2020): Ancient Jomon genome sequence analysis sheds light on migration patterns of early East Asian populations. Communications Biology, 3, 437.
https://doi.org/10.1038/s42003-020-01162-2
関連記事
Gelabert P. et al.(2022): Northeastern Asian and Jomon-related genetic structure in the Three Kingdoms period of Gimhae, Korea. Current Biology, 32, 15, 3232–3244.E6.
https://doi.org/10.1016/j.cub.2022.06.004
関連記事
GenomeAsia100K Consortium.(2019): The GenomeAsia 100K Project enables genetic discoveries across Asia. Nature, 576, 7785, 106–111.
https://doi.org/10.1038/s41586-019-1793-z
関連記事
Gudbjartsson DF. et al.(2015): Large-scale whole-genome sequencing of the Icelandic population. Nature Genetics, 47, 5, 435–444.
https://doi.org/10.1038/ng.3247
関連記事
Huerta-Sánchez E. et al.(2014): Altitude adaptation in Tibetans caused by introgression of Denisovan-like DNA. Nature, 512, 7513, 194–197.
https://doi.org/10.1038/nature13408
関連記事
Jinam T. et al.(2021): Genome-wide SNP data of Izumo and Makurazaki populations support inner-dual structure model for origin of Yamato people. Journal of Human Genetics, 66, 7, 681–687.
https://doi.org/10.1038/s10038-020-00898-3
関連記事
Jónsson H. et al.(2017): Parental influence on human germline de novo mutations in 1,548 trios from Iceland. Nature, 549, 7673, 519–522.
https://doi.org/10.1038/nature24018
関連記事
Kanzawa-Kiriyama H. et al.(2019): Late Jomon male and female genome sequences from the Funadomari site in Hokkaido, Japan. Anthropological Science, 127, 2, 83–108.
https://doi.org/10.1537/ase.190415
関連記事
Karczewski KJ. et al.(2020): The mutational constraint spectrum quantified from variation in 141,456 humans. Nature, 581, 7809, 434–443.
https://doi.org/10.1038/s41586-020-2308-7
関連記事
Kurki MI. et al.(2023): FinnGen provides genetic insights from a well-phenotyped isolated population. Nature, 613, 7944, 508–518.
https://doi.org/10.1038/s41586-022-05473-8
関連記事
Larena S. et al.(2021): Philippine Ayta possess the highest level of Denisovan ancestry in the world. Current Biology, 31, 19, 4219–4230.E19.
https://doi.org/10.1016/j.cub.2021.07.022
関連記事
Liu X. et al.(2024): Decoding triancestral origins, archaic introgression, and natural selection in the Japanese population by whole-genome sequencing. Science Advances, 10, 16, eadi8419.
https://doi.org/10.1126/sciadv.adi8419
Mallick S. et al.(2016): The Simons Genome Diversity Project: 300 genomes from 142 diverse populations. Nature, 538, 7624, 201–206.
https://doi.org/10.1038/nature18964
関連記事
Minikel EV. et al.(2020): Evaluating drug targets through human loss-of-function genetic variation. Nature, 581, 7809, 459–464.
https://doi.org/10.1038/s41586-020-2267-z
関連記事
Ning C. et al.(2020): Ancient genomes from northern China suggest links between subsistence changes and human migration. Nature Communications, 11, 2700.
https://doi.org/10.1038/s41467-020-16557-2
関連記事
Reilly PF. et al.(2022): The contribution of Neanderthal introgression to modern human traits. Current Biology, 32, 18, R970–R983.
https://doi.org/10.1016/j.cub.2022.08.027
関連記事
Robbeets M. et al.(2021): Triangulation supports agricultural spread of the Transeurasian languages. Nature, 599, 7886, 616–621.
https://doi.org/10.1038/s41586-021-04108-8
関連記事
Skov L. et al.(2020): The nature of Neanderthal introgression revealed by 27,566 Icelandic genomes. Nature, 582, 7810, 78–83.
https://doi.org/10.1038/s41586-020-2225-9
関連記事
Terao C. et al.(2020): Chromosomal alterations among age-related haematopoietic clones in Japan. Nature, 584, 7819, 130–135.
https://doi.org/10.1038/s41586-020-2426-2
関連記事
Wang CC. et al.(2021): Genomic insights into the formation of human populations in East Asia. Nature, 591, 7850, 413–419.
https://doi.org/10.1038/s41586-021-03336-2
関連記事
Watanabe Y, Isshiki M, and Ohashi J.(2021): Prefecture-level population structure of the Japanese based on SNP genotypes of 11,069 individuals. Journal of Human Genetics, 66, 4, 431–437.
https://doi.org/10.1038/s10038-020-00847-0
関連記事
Zeberg H, and Pääbo S.(2020): The major genetic risk factor for severe COVID-19 is inherited from Neanderthals. Nature, 587, 7835, 610–612.
https://doi.org/10.1038/s41586-020-2818-3
関連記事
Zeberg H, Jakobsson M, and Pääbo S.(2024): The genetic changes that shaped Neandertals, Denisovans, and modern humans. Cell, 187, 5, 1047–1058.
https://doi.org/10.1016/j.cell.2023.12.029
関連記事
Zhang X. et al.(2021): The history and evolution of the Denisovan-EPAS1 haplotype in Tibetans. PNAS, 118, 22, e2020803118.
https://doi.org/10.1073/pnas.2020803118
関連記事
この記事へのコメント
>この構成要素は西部と比較して、「縄文人」および三国時代朝鮮半島古代人のゲノムと有意により近い遺伝的類似性を有している、と観察されました
>これらのデータは、北東部とNEAとの間のつながりの可能性を示唆しているかもしれませんが、このつながりの実証には追加の証拠が必要です。
>さらに、蝦夷の人々は歴史時代の出雲方言と類似した独特な日本語を話していたかもしれない、と示唆されてきました。
>さらに、北東部と南部(具体的には、証拠から日本で最初に稲作農耕がもたらされた九州)との間の地理的距離にも関わらず、北東部の北方の在来集団は弥生時代前期にイネを独占的に採用した、と報告されてきました。>このつながりは、日本海沿岸でのヒトの移動により促進された可能性があり、弥生時代における北東部と稲作農耕の採用との間の関連を示唆しているかもしれません。
私もこれは検証が必要と思いますが、
現代北東部日本人に西部よりも多くNEA系統が残っている事実は、縄文時代終末期ないし弥生時代初期段階に「渡来系(とされる)」弥生人と縄文人の融合が急速に進み、その交雑子孫が急速(弥生時代前半期段階)に日本各地に拡散・土着した結果が反映されたように思います
考古学においても、北東北への水稲の伝播の早さは度々話題になる所です
端的に申しあげれば、弥生時代の最も最初の段階から日本に到来して縄文人と同化していったグループの残滓、とでも言うべきでしょうか?
当然西部にも同じ事象は起きたが、その後(弥生後期〜近現代)でさらに朝鮮から多数渡来してきたEA系統に西部人のゲノムとYハプロがフロースタック的に希釈され、その影響は本州島西部中央に行くほど強い、という史実を反映しているのでしょう
特に弥生時代のNEA系を代表する初期入植者として有力な父系識別式ハプログループと目されるY-O1b2a1a1(O-47z)の分布範囲は朝鮮〜日本列島ですが、しかし韓国よりも日本で、且つ西日本よりも東日本(特に南関東〜東北太平洋側、例外として沖縄県先島諸島)で高頻度で観察されます
長崎県佐世保市下本山岩陰3号や和歌山県磯間岩陰2号など、ゲノム全体のf4統計やadmixtureで縄文人との近似度が非常に高い弥生後期〜古墳サンプルでも検出されています
沖縄県先島諸島のグスク時代人サンプルにおいても高頻度で確認されます
島根県猪目洞窟3-2-2号古墳サンプル(現代日本人よりも若干縄文的)からも検出されています
私は、NEA祖先系統およびY-O-47zの拡散と出雲方言、琉球諸語等に関する何かしらのダイナミクスを検証する必要はあると思います
しかし日本の研究者のNEA祖先系統やY-O-47z系統への関心と解像度は依然低く、現代韓族に高頻度であるO1b2a1a2(-a、-b)とはTMRCAで約8000年の分岐がある事実が最近になってようやく周知されてきたような状況です(これは雑にO-M268という大枠で日本人のO1b2を総括する、論文と称するものが最近提出された一件からも明らかです。貴記事コメント欄においても先行者の方が正確に問題点を挙げておりました)
O-47zのような傍証をもってして、複合的に初期金属器時代日本列島へのNEA祖先系統の拡散・交雑の状況や、現代日本の周辺部方言を論じる研究が出てくる事を期待します
もちろん、NEA祖先系統やO-47zの発生地であるとか、既に報告されているO-47z内部における日韓のサブグレード頻度の偏りであるとか、こういった緒問題もあるので、其方も全て総括した研究が提示されると有り難いのですが、今の日本の研究業界の悲惨な予算状況を見る限りでは難しいでしょうね
青森県で発見されている、地理を考えると特異的に早いとも言える稲作の担い手が遺伝的にはどのような集団だったのか、父系も含めて実際の古代人のDNA解析で確認されるまでは、判断が難しいようにも思います。
大友の場合はNEA祖先系統が持ち込んだと思われる支石墓被葬者でしたので、下本山岩陰と同じく西北九州弥生人の文化圏(縄文文化とNEA系文化の習合)に分類されるという事で間違いないですが、
北東北に於いては解析可能な弥生時代人骨が岩手県アバクチ洞窟出土の1個体程度しかなく、それも100%の縄文人でモデル化できるという事なので、解釈が難しい所です
大友の様に、系統的に100%の縄文人が積極的にNEA系の齎した文化風俗に習合する事例は北東北でも起こり得たのか、サンプル数の少ない影響でブラックボックスと化しており、今後解析可能な人骨が相当数出土しない限り状況証拠で考えざるを得ない状態が続くものと思われます
青森県砂沢遺跡や垂柳遺跡の様な大規模水田遺構に於いては、縄文系遺物とNEA系遺物の共伴も当然確認されているので、ある程度の習合があった事は既定ではありますが、
NEA系文化とは砂沢式土器や南海産貝輪が出土した程度の繋がりしか持たない岩手県アバクチ洞窟の事例は、鹿児島県種子島の古墳標本と同様に辺境部の高強度縄文人残存集団として見るべきでしょうか
砂沢の様な水田遺構を伴う遺跡において、交雑の状況が分かる人骨の出土する事が最も望ましい事は間違いないです
しかしそれは難しそうなので、本研究をさらに深化したバイオインフォマティクスで現代東北人のゲノムやY-O-47zのサブグレードTMRCAから主要交雑年代を類推する様なアプローチが必要と思われます
その意味で、古代ゲノムデータを用いて事例ごとに判断せねばならない難しさがあるとは思いますし、日本列島に即してより具体的には、最初期の水田稲作の担い手や、それにわずかに先行する穀物栽培の担い手の遺伝的構成は、古代ゲノムデータが得られるまで、判断がなかなか難しいだろう、と考えています。
一方で確かに、古代ゲノムデータを利用できそうにない事例では、他の地域や年代の古代ゲノムデータとともに、現代人の遺伝的データも活用し、割り切って推測しなければならない場合もあるのでしょう。