現生人類の統一的系図

 現生人類(Homo sapiens)の統一的系図に関する研究(Wohns et al., 2022)が公表されました。日本語の解説記事もあります。個体と人口集団と種の間の関係を決定する能力は、医療標本の人口集団規模のバイオバンク(関連記事)、数千の古代人ゲノムの収集、比較ゲノム分析のための数百万の真核生物種の配列決定の取り組みにより、一変しつつあります。このような関係や、その結果として得られる遺伝的および表現型の変異の分布は、選択と人口統計学と分子の過程一式と、現生人類などの種を形成してきた事象を反映しています(関連記事)。

 しかし、ヒトもしくは他の種において、ゲノム変異の全体から進化の事象や過程について学ぶことは困難です。たとえ同じ種内でも、複数のデータセットからの情報を組み合わせることは技術的に困難です。エラーによるコホート(特定の性質が一致する個体で構成される集団)間の不一致、異なる配列決定技術、多様体処理は、簡単に本物の兆候を隠す可能性があるノイズ(無意味な情報)をもたらすかもしれません。さらに、複数の供給源の組み合わせから生じる膨大なデータセットに対応できる手段はほとんどありません。また、統計分析は通常、データ削減技術もしくはパラメトリック(母集団の分布を仮定した統計手法)モデルに依存しており、それらは進化史の複雑性の不完全な全体像を提供するかもしれません。最後に、データの利用と管理の制限により、しばしばデータ供給源を組み合わせる能力が制約されます。

 簡潔な系図系列データ構造は、これらの問題の多くに対する解決策となる可能性があります。系図系列は、系統樹の基本的概念をゲノムに沿った複数の相関する系図へと拡張したもので、組換えのある生物内の系統を考えるさいに必要です。注目すべきは、系図系列とそれへの変異事象の対応付けが、個々の多様体の系統的関係と進化史について知り得るものの全体を反映していることです。系図系列は、標本抽出された染色体と祖先のハプロタイプを表す節点、子孫の線を表す節点をつなぐ枝、枝に対応付けられた一つもしくは複数の変異を含む可変部位、といったもの一式を有する図として定義されます(図1A)。標本の祖先の歴史における組換え事象は、ゲノムに沿って、さまざまな枝、したがって異なるものの高度に相関した系図を作り出します。系図系列は遺伝的データの圧縮に使えるだけではなく、集団の遺伝的統計の計算を行なうための高効率的アルゴリズム(演算法)にもつながります。以下は本論文の図1です。
画像


●現代人と古代人のゲノムの統一された系図

 本論文は、複数の供給源から時間分解系図系列を推測するノンパラメトリック手法を導入・確認・適用し、古代人および現代人のゲノムの単一の統一された系図系列を効率的に推測します。ヒトがこの研究の焦点ですが、本論文が導入した手法は、ほとんどの組換え生物に有効です。

 本論文は、古代人と現代人のゲノムの統一された系図を作成するために、3点の現代人のデータセットを統合しました。それは、26の人口集団の2548個体の配列データを含む1000人ゲノム計画(TGP)、54の人口集団の929個体の配列データで構成される(関連記事)ヒトゲノム多様性計画(HGDP)、142の人口集団の278個体の配列データで構成される(関連記事)SGDP(サイモンズゲノム多様性計画)です。合計すると、154個体がこれらのデータセットの複数に現れます。

 さらに、3点の高網羅率で配列されたネアンデルタール人(Homo neanderthalensis)のゲノム(関連記事1および関連記事2および関連記事3)と、種区分未定のホモ属であるデニソワ人(Denisovan)1個体の高網羅率のゲノムデータ(関連記事)と、シベリアのアルタイ山脈で4600年前頃に暮らしていたアファナシェヴォ(Afanasievo)文化の核家族4個体(両親と2人の息子)の高網羅率の全ゲノムデータ(母は10.8倍、父は25.8倍、息子2人は21.2倍と25.3倍)が含められました。

 最後に、デイヴィッド・ライク(David Reich)氏の研究室で集められた100点以上の刊行物の古代人3589個体の標本と、アレル(対立遺伝子)年代推定値を制約するため、ルクセンブルクのロシュブール(Loschbour)遺跡、ドイツのシュトゥットガルト(Stuttgart)遺跡の線形陶器文化(Linear Pottery、Linearbandkeramik、略してLBK)期、シベリア西部のウスチイシム(Ust’-Ishim)近郊のイルティシ川(Irtysh River)の土手で発見された古代人3個体の標本(関連記事1および関連記事2)が用いられました。これら古代人のゲノムは、標本のほとんどで信頼できる位相調整が欠如しているため、最終的な系図系列では含められませんでした。

 反復手法を用いて、これらのデータセットから統一された系図が構築されました(図1B)。まず、tsinfer0.2版を用いて現代人のデータセットが統合され、各常染色体の系図系列が推測されました。次に、高精度および拡大縮小特性で祖先のハプロタイプを推定するベイズ手法であるtsdateで、祖先のハプロタイプの年代が推定されました(図1C)。とくにtsdateは、tsinferにより推測されるものだけではなく、任意の有効な系図系列の年代測定に使用できます。Tsdateは、年代推定値の改善に古代人標本を使うこともできます(図1D)。古代人と現代人両方の標本に存在する、641万2717個の多様体が特定されました。変異年代の下限は、派生的アレルが見つかる最古の古代人標本の推定された考古学的年代により提供されます。これが最初の推定値(559431個もしくは多様体の8.7%)と一致しない場合、考古学年代が多様体の年代として用いられました。

 最後に、アファナシェヴォ文化の核家族と古代型ホモ属(絶滅ホモ属)4個体の配列が現代人の標本と統合され、系図系列が再推測されました。アファナシェヴォ文化の核家族は高網羅率と比較的信頼できるハプロタイプ位相調整を有しており、高品質の古代人標本を組み込む本論文の手法の能力を論証するために含められました。

 組み合わされた各常染色体の統合された系図系列は、2695万8720個の推定された祖先のハプロタイプ断片と、2億3107万3278個の枝と、9117万2114個の可変部位と、2億4563万1834個の変異が含まれます。多様体部位の38.7%は、データを説明するために系図系列のアレル状態に複数の変化が必要になる、と推測されます。これは、反復変異もしくはエラーのいずれかを示唆しており、その全ては系図系列の追加の変異により表されます。配列決定エラーを示す可能性が高い変異を無視すると、1351万3873ヶ所の部位が複数標本に影響を及ぼす少なくとも2個の変異を有している、と明らかになり、可変部位の最大17.5%は複数の祖先変異の結果かもしれない、と示唆されます。

 20番染色体の100個以上の変異のある部位の大部分は、TGPの影響の受けやすさの偽装に定義されているように、配列決定もしくは位置合わせの品質の問題があるか、その周囲の部位との最小限の連鎖不平衡にあり、ほぼ間違っていることを示唆します。さらに、実証的に較正されたエラー特性で模擬実験されたデータの分析と、既知の高い変異率部位における複数の変異の濃縮の評価は、特定された複数の変異のほとんどはエラーにより説明される可能性が高いものの、少数(20%以下)は真の反復もしくは逆変異の結果です。推測された系図系列が元データの可逆表現となるように、部位を保持することが選択されましたが、将来のそうしたあり得るエラー除去の反復手法は、補完など使用事例を改善する可能性が高そうです。

 構成データセットの215の人口集団間の関連性の詳細なパターンを特徴づけるため、20番染色体の系図系列の122637個の異なる系図で、これら人口集団のハプロタイプの組み合わせ間の最新の共通祖先までの時間(TMRCA)が推定されました(組み合わせごとのTMRCAは約3000億個)。これやその他の解析では、20番染色体のデータが提示されます。それは、これらのデータがゲノム規模パターンを代表しているからです。階層的クラスタ化の実行後、標本はデータ供給源によりまとまりませんが(乱れを示唆しているのでしょう)、世界的な関連性のパターンを反映している、と明らかになりました(図2)。したがって、データセットを統合する本論文の手法は、異なるデータセットを統合によりもたらされる偏りに対して堅牢である、と結論づけられます。以下は本論文の図2です。
画像

 この系図では、人類史の多くの特徴が直ちに明らかになります。それは、絶滅ホモ属(古代型ホモ属)と現生人類との深い分岐、出アフリカ事象の影響(図2A)、2000~5000世代前からのオセアニア人とデニソワ人の最新の共通祖先(MRCA)密度の微妙な増加(図2B)です。複数の人口集団は最近の集団内TMRCAを示し、これは最近のボトルネック(瓶首効果)もしくは血族関係を示唆します。最も極端な事例は、SGDPのサマリア人1個体など、人口集団が本論文のデータセットにおいて単一個体で構成される場合に発生し、対数平均で1000世代の集団内TMRCAが見られます。これは、ごく最近に複数のMRCAにより起き(図2C)、最近数世紀における深刻なボトルネックおよび血族関係と一致します。アメリカ大陸先住民集団と台湾先住民のタイヤル人(Atayal)1個体とパプア人も、とくに最近の集団内TMRCAを示します(図2)。


●古代の配列からの子孫の系図系列に基づく分析

 年代測定手法を確認するため、模擬実験を用いて、古代人標本の統合は人口史の下で派生的アレルの年代推定値を改善する、と示されます(図1D)。その手法の実証的検証を提供するため、古代人標本の観察と一致するアレル年代を推定する最良の方法が検証されました。したがって、TGPの20番染色体の系図系列が推測・年代測定され(古代人標本を用いずに)、得られた点推定値とアレル年代の上限および下限が、GEVAおよびRelateの結果と比較されました。その結果、3手法全てでアレル年代推定値が提供される、659804ヶ所の多様体部位が得られました。これらのうち、76889ヶ所の派生的アレルが3734点の古代人ゲノム標本の組み合わされた一式内で観察されたので、アレル年代には下限が設定されています。tsdateとRelateから推定されたアレル年代は、tsdateの平均年代推定値がRelateよりも新しいにも関わらず、古代人標本の下限と最も適合していました。

 次に、古代と現代の人口集団間の既知の関係を回復するための統一された系図系列の能力を評価するため、20番染色体の古代型ホモ属配列から現代の配列への系統パターンが検討されました。模擬実験では、この手法はデニソワ人から遺伝子移入された遺伝物質を61%の再現率で86%の精度にて検出する、と示唆されます。20番染色体のデニソワ人型ハプロタイプの範囲の13%について、現代人とアファナシェヴォ文化個体の両方を含む非古代型ホモ属個体群で遺伝的継承が見つかります。

 現代人におけるデニソワ人からの遺伝的継承の最高の程度は、以前に報告されたように(関連記事)、オセアニアの人口集団にあります(図3B)。しかし、系図系列は、デニソワ人型ハプロタイプからの遺伝的継承の程度と性質の両方が、現代人においてどのように大きく異なるのかも明らかにします。とくに、パプア人とオーストラリア先住民は、おもに個体に特有のデニソワ人型ハプロタイプの複数の断片を有している、と明らかになりました(図3C)。対照的に、デニソワ人型ハプロタイプの他の現代人に見られる遺伝的継承は、より広く共有される塊が少なく、多くの場合、地理的に遠い個体間で共有されています。以下は本論文の図3です。
画像

 統一された系図において他の古代人標本を調べると、ユーラシア西部とアジア南部の個体群でアファナシェヴォ文化の核家族のハプロタイプの遺伝的継承の最大量が見つかり、遺伝的に類似のヤムナヤ(Yamnaya)文化の人々からの発見と一致し、複数経路によるアファナシェヴォ文化的な遺伝的物質の同時代の拡散が裏づけられます(関連記事)。

 異なる年代の標本3点があるネアンデルタール人について、本論文の模擬実験から示唆されるのは、系統間で精度と再現率の水準を変えることにより、子孫の統計の解釈が複雑になる、ということです。それにも関わらず、遺伝子移入と標本抽出された古代型系統がより新しい共通祖先系統(祖先系譜、祖先成分、祖先構成、ancestry)を共有する領域で再現率が最高となり、精度はクロアチアのヴィンディヤ洞窟(Vindija Cave)遺跡のネアンデルタール人標本ではより高くなり、現生人類へと遺伝子移入したネアンデルタール人系統とより密接に関連しています。常染色体全体にわたるヴィンディヤ洞窟のネアンデルタール人のハプロタイプの遺伝的継承パターンからは、非アフリカ系現代人集団はヴィンディヤ洞窟のネアンデルタール人的な遺伝的物質を類似の水準で有している、と示唆されます。これは、アジア東部人とユーラシア西部人との間で、ネアンデルタール人由来のゲノム領域の割合が類似している、との提案(関連記事)を裏づけ、他の研究と一致します(関連記事)。


●人類史における時空間的動態のノンパラメトリック推論

 古代人標本の系図系列に基づく分析は、最近の子孫のパターンを特徴づける能力を論証します。祖先の地理的位置の推定を提供する系図系列の構造と組み合わせて節点の子孫の座標を用いる、祖先の空間的位置の単純な推定法が開発されました。要するにこれは、その中間の子供たちの中間点として、系図系列における親節点の座標の決定により実現される、単純な模擬実験で上手く機能する手法です。この手法は、古代人標本の位置に関する情報を使えますが、さまざまな場所や経路の地理的妥当性を把握しようとはしません。したがって、推定された場所は祖先の場所のモデルを使用しない推定であり、系図系列形態と標本の地理的分布により情報が得られます。

 本論文の手法が、(正確な地理的情報を欠いている)TGP 個体を除外して、20番染色体の統一された系図系列に適用されました。その結果、推定された祖先の場所はヒトの歴史における複数の重要な事象を回復しました(図4)。標本抽出された個体群の地理的中心がアジア中央部にあるという事実にも関わらず、72000年前頃まで祖先のハプロタイプの平均的位置はアフリカ北東部にあり、最古の共通祖先が到達するまでそこに留まります。じっさい、100点の祖先型ハプロタイプ(平均年代は200万年前頃)の重心の推定された地理的中心は、北緯19度4分、東経33度7分のスーダンに位置します。以下は本論文の図4です。
画像

 これらの発見は、推定された系図系列におけるアフリカ系統の深さを反映し、アフリカ東部(関連記事)および北部(関連記事)のよく年代測定された初期現生人類化石と一致します。要注意なのは、アフリカ人口集団の格子状の標本抽出データを分析した場合、さまざまな時間的深さの独立した系統の重心の地理的中心は移動するだろう、ということです。さらに、過去数千年以内に起きた移住(関連記事1および関連記事2)は、アフリカと他地域の集団の現在の分布がその祖先の分布を表していないかもしれないので、古代の地理的分布の歪んだ全体像を示す可能性がある、ということを意味します。それにも関わらず、深い系図構造は常染色体データでアフリカに地理的に集中しており、それはミトコンドリアDNA(mtDNA)およびY染色体と同様です。

 28万年前頃までに、ヒトの祖先の推定される地理的中心はまだアフリカにありますが、多くの祖先は中東およびアジア中央部でも観察され、少数はパプアニューギニアに位置します。14万年前頃までに、パプアニューギニアではより多くの祖先が見つかります。これは、パプアニューギニア一帯における最初の記録されたヒトの居住のほぼ10万年前です。しかし、本論文の発見は、パプア人に特有の深く分岐したデニソワ人系統の提案された時間規模(関連記事)、および標本抽出されていないゴースト系統(亡霊系統)との混合と一致する可能性があります。

 56000年前頃以後、一部の祖先的系統はアメリカ大陸で観察され、アメリカ大陸への推定移住年代より早いことになります。この影響は、(現代のアメリカ大陸先住民集団の主要な祖先集団のアメリカ大陸への)移住に先行し、現在アメリカ大陸には存在しないものの、(現代アメリカ大陸先住民集団への遺伝的影響は小さいものの)その子孫がアメリカ大陸にのみ存在する、祖先に起因する可能性があります(関連記事)。同じ影響は、パプアニューギニアの観察を説明できるかもしれません。これらの仮説を区別するには、追加の古代人標本とより洗練された推定手法が必要です。それは、単一の祖先の真の年代について、かなりの不確実性が残っているからです。それにも関わらず、これらの結果は、複雑なパラメトリックモデル化を要求しない方法でヒトの歴史の重要な特徴を捕捉するために系図系列に適用された、推定手法の能力を論証します。


●考察

 進化生物学の中心的主題は、生物の歴史を形成してきた過程と力と事象について学ぶために、ゲノム多様性をどのように表現して分析するのが最善なのか、ということです。歴史的に、多くのモデル化手法は理想化された人口集団の個々の変異頻度の時間的振る舞いに焦点を当ててきました。最近では、モデル化技術は標本抽出されたゲノムの系図の歴史と、組換えを通じて起きた相関構造に焦点を当てるよう、変化しています。とくに、祖先的関係の一組(ひじょうに複雑ではあるものの)が存在し、変異事象が子孫を通じてどのように遺伝物質を変え得るのか、ということ組み合わされて、現在観察されているものを説明しています。

 しかし、根底にある系図を推測するための効率的手法の開発は、困難と証明されてきました。本論文で説明される手法は、何千もの現代人および古代人標本を含む、高品質の年代測定された系図を生成します。これらの系図は完全には正確ではあり得ませんが、ヒトの進化の特徴を明らかにする豊富な分析を可能にします。本論文のひじょうに単純な地理的推定法が重要な事象を捕捉することは、より洗練された手法が、古代人標本の配列決定の進行中の計画と組み合わされて、ヒトの歴史への洞察を生み出し続けるだろう、ということを示唆します。具体的には、本論文で開発された手法は、パラメトリックで明示的に空間的な模擬実験枠組みを用いて、ネアンデルタール人の吸収モデル(関連記事)など、ヒトの移住と人口史のさまざまなモデルを検証する枠組みを提供します。しかし、標本抽出された個体の分布が標本の祖先の場所を反映していない場合、祖先の地理的推定手法の精度は制約されるでしょう。

 本論文は、ゲノム変異の分析における遺伝子型決定エラーと反復変異の調整の重要性も浮き彫りにします。多数の部位は複数の変異を有していると推測されますが、本論文で明らかになったのは、これらのほとんどは遺伝子型決定エラーと偽推理から生じたエラー(とくに、多数の変異を要求する部位で)を反映している可能性が高いものの、以前に報告されたように、反復変異のかなりの兆候が残っている、ということです。同様に、多様体年代の誤った補正につながる古代人配列のエラーの特定の種類について、いくつかの証拠も見つかりました。

 本論文において説明された分析で、追加の変異の保持が選択されました。この中には、配列決定エラーを反映している可能性が高いものも含まれます。それは、これが系図系列の構築に用いられた入力データを反映しており、エラーに対応する変異を除去するあらゆる試みは、それ自体が偏りをもたらすからです。要注意なのは、本論文で報告された絶対年代には、配列決定データセットにおけるこれらのエラーの結果として、ある程度のエラーがあることです。模擬実験の推定が示すのは、遺伝子型決定エラーが現代人標本に由来する年代推定値で最大16%の上方の偏りをもたらすかもしれない、ということです。しかし、エラーである可能性がひじょうに高い部位の除去は、年代推定値にわずかな影響しか及ぼさないことも明らかになりました。遺伝子型決定エラーの影響に対して、検出および修正もしくは軽減する手法の改善は、将来の研究にとって重要な方向性です。

 系図系列手法は、ヒトの関係とゲノム多様性の構造の捕捉を目的としているので、複数の異なる供給源からのデータを組み合わせるための原理的基盤を提供し、エラーを修正するだけではなく、欠失データの代入などの作業を可能にします。他の種類の変異を統合するにはさらなる研究が必要ですが、ヒトの変異の参照系図系列は、それを適切に使用する手法とともに、ずっと大規模で広範なゲノムデータ供給源一式を調和させ、データ供給源分析間の分析を可能とする、基盤を表す可能性があります。要注意なのは、参照系図系列が、そうした参照構造に対してコホートを圧縮することにより、ゲノム分析におけるデータ共有と私的自由の保護も可能とすることです。

 このように、年代測定された系図系列構造を用いるゲノム分析には、機会と同様に改善の余地もあります。本論文の手法は位相調整されたゲノムを必要とし、これは古代人標本ではとくに困難です。しかし、合致アルゴリズムのtsinferの二倍体版を用いての、位相調整と補完の解決は可能なはずです。これも、古代人標本に現代人の遺伝的に遠い参照区画を使用することによる偏りを軽減する可能性があります。さらに、tsdate内の年代推定への本論文の手法は、系図史に固有の周期に近似解を提供するだけで、変異率における不均一性へと拡張できます。また、時空間的祖先推定の精巧化を改善するための手法も多く考えられます。以下は本論文の要約図です。
画像

 本論文で提示された統一的な系図は、現代人と古代人両方のゲノムを含む、ヒトのゲノム多様性の包括的理解構築のための基礎を表しており、ゲノム解釈の改善から現代人の根源の解読にいたるまで、広範な応用が可能です。全員の系図の構築にはまだ多くの研究が必要ですが、本論文で提示された手法は、この基本的課題に対する解決策を提供します。


参考文献:
Wohns AW. et al.(2022): A unified genealogy of modern and ancient genomes. Science, 375, 6583, eabi8264.
https://doi.org/10.1126/science.abi8264

この記事へのコメント

この記事へのトラックバック