雲南省の後期更新世人類のゲノムデータの検証
中華人民共和国の雲南省で発見された後期更新世人類のゲノムデータを検証した研究(Tabin et al., 2025)が公表されました。なお、[]は本論文の参考文献の番号で、当ブログで過去に取り上げた研究のみを掲載しています。本論文が検証したのは、雲南省の馬鹿洞(Maludong、Red Deer Cave)で発見された、MZR(Mengzi Ren、蒙自人)と呼ばれている14000年前頃の人類遺骸のゲノムデータです。このゲノムデータは、2022年に張暁明(Xiaoming Zhang)氏を筆頭著者とする論文[1]で報告されました(以下、張論文と呼びます)。
MZRはその形態から、非現生人類(Homo sapiens)ホモ属か、非現生人類ホモ属と現生人類との混合の可能性が指摘されていましたが、ミトコンドリアDNA(mtDNA)ハプログループ(mtHg)が出アフリカ現生人類系統に属するM9の絶滅した基底部系統に位置しており、核ゲノム分析から、アジア東部における初期に多様化した系統を表す現生人類である、と示唆されました[1]。張論文[1]では、MZRはアメリカ大陸最初の人類に寄与した祖先系統と深く間接的に関連していた、と指摘され、後期更新世に、アジア東部南方に始まり中国沿岸部を通ってAMHの北方への急速な拡大があり、おそらくは日本列島を経由し、最終的にはベーリング海峡(もしくは寒冷期にはベーリング陸橋)を渡ってアメリカ大陸へと到達した、と推測されました。
しかし本論文は、張論文[1]で報告されたMZRのDNA配列について、きわめて高い誤差率、異常な誤差分布、現代人の配列による汚染の証拠を示します。本論文は、これらの問題を無視しても、アメリカ大陸先住民はMZRおよびアジア北東部古代人と同様に関連している、との張論文[1]の結果を再現できなかった、と指摘します。古代ゲノム研究において汚染の問題は宿命とも言えますが、アジア南東部(張論文[1]ではアジア東部南方とされていますが、雲南省は境界地帯に位置していますし、そもそも便宜的な地理区分ですから、どちらかに拘る必要はないと思います)としては最古級のゲノムデータが得られた人類遺骸として私もたいへん注目したMZRですが、残念ながら本論文では現代人による汚染など品質に関する懸念が指摘されています。低品質なゲノムデータしか得られていなかった個体から、より高品質なゲノムデータの取得に成功し、集団遺伝学的な分析結果が修正されることもありますので(関連記事)、MZRについても、より高品質なゲノムデータが得られることを期待しています。
●要約
2022年の張論文[1]は、MZRと呼ばれる馬鹿洞の14000年前頃の女性骨格のDNA配列を報告しました。MZRのデータは、完新世の前のアジア南東部から報告された最初のDNA配列で、すべての以前に刊行された古代DNAデータと似ていない遺伝的関係を明らかにしました。本論文は、MZRの刊行されているDNA配列における、きわめて高い誤差率、異常な誤差分布、現代人の配列による汚染の証拠を示します。これらの問題を無視しても、張論文[1]の重要な集団遺伝学的調査結果、つまり、アメリカ大陸先住民はMZRおよびアジア北東部古代人と同様に関連している、との結果を再現できません。これらの結果は、アジア東部南方に始まり中国沿岸部を通ってAMHの北方への急速な拡大があり(中略)、最終的にはベーリング海峡を渡ってアメリカ大陸へと到達した、との主張など人口史について、および刊行されている配列の一般的な有用性についても、張論文[1]の結論に関する懸念を提起します。
●検証
MZRのゲノムの誤差率はきわめて高く、とくに懸念されるのは、これらの誤差が古代DNAに典型的ではないことです。この誤差を説明するために、MZRの不適正塩基対(ミスマッチ)のパターンがヒトゲノム参照配列と比較され、これは配列の誤りを検出する強力な手法です(図1)。mtDNAと核DNA両方のデータについて、最後のヌクレオチドにおける不適正塩基対率の増加が、古代DNAで予測されるシトシンの脱アミノ化だけではなく、全ての置換型で見られます。さらに、誤差率は多くの場合大きく、配列の末端からの距離の関数としての減少は、配列の5’末端上よりも3’末端上の方で緩やかであり、これは既知の実験室もしくは生物情報学的過程では予測されません(図1)。影響の一例として、MZRのmtDNAにおける非コンセンサスアレル(対立遺伝子)を裏づける読み取りの1番目と4番目と7番目と8番目に多い数の部位は、現代人256個体のミトコンドリアゲノムの多様な標本に存在しないアレルを裏づけます。異質性(heteroplasmy、個体ごとの複数のミトコンドリアゲノムの存在)はこのパターンを説明できず、妥当な説明は、これらの部位にはMZRのデータで高い誤差率があることです。誤差の過程はmtDNAに限定されているはずだ、と考える生化学的根拠はなく、これらの誤差は核ゲノムにも同様に存在する可能性が高そうです。以下は本論文の図1です。
古代DNAデータの確実性を検証する強力な手段はミトコンドリアゲノムで、それは、ミトコンドリアゲノムが単一の個体のみに由来する汚染されていない配列において多型的ではないと予測され、多くのコピー数あることによって、コンセンサス配列を決定し、それによってコンセンサスとの平均配列の不適正塩基対率を判断できるからです。MZRのmtDNAデータを分析するために、まずSAMtoolsを用いて、PCR(polymerase chain reaction、ポリメラーゼ連鎖反応)重複である可能性の高そうな断片が除外され、mtDNA部位の平均網羅率が99倍【張論文[1]では平均125.05倍】となりました。標準的な設定を用いて、これらの誤差データでContamMixを実行すると、コンセンサス配列に対して55~66%(95%信頼区間)の一致率が推定されました。これは、94~100%と、ずっと高いミトコンドリアのコンセンサス配列との一致率を推定した、張論文[1]の分析と一致しません。張論文[1]は手動で精選した14ヶ所の部位一式に分析を限定した後でこの推定値【94~100%】を得ており、張論文[1]がこの14ヶ所の部位一式を選択したのは、MZRの配列における誤差率は異常に高いと認識し、そうした誤差による影響が最小限の部位の部分集合に焦点を当てることによって、この課題に対処しようとしていたからでした。しかし、MZRのデータにおける誤差の過程はたいへん異常なので、本論文は、誤差が少ない傾向にある部位一式への濾過を通じて、適切ら対処できないかもしれない、と本論文は懸念しています。さらに、配列の刈り取り、片側の8塩基対もしくは5’末端および3’末端の17塩基対のどちらか、張論文[1]によって使用された手法は、両方の場合でContamMixが同様の汚染を推定しているので、これらの問題に対処していません。
張論文[1]は常染色体の汚染率の直接的な推定値0.7%、もしくはAuthentiCTソフトウェアを用いてのより少ない汚染率も報告しており、これは本論文の調査結果と一致しないようです。しかし、刊行されているMZRの配列は、AuthentiCTで要求される特徴を有していません。AuthentiCTは、損傷修復なしで構築された一本鎖の古代DNAライブラリの両端の損傷特性を比較します。実際の配列は、5’末端と3’末端の両方で過剰な脱アミノ化を示すはずですが、現代人の汚染はどちらも示さないはずです。したがって、汚染について末端間の相関が予測されます。しかし、刊行されているMZRの配列はおもに3’末端で損傷を示しています(図1)。標準的な一本鎖ライブラリと比較しての生化学的処理の相違なのか、あるいは生物情報学的問題に起因するのかどうかはともかく、AuthentiCTに必要な条件は満たされていません。
MZRのmtDNA配列の誤差率はひじょうに高いので、コンセンサスmtHgが何かさえ明らかではなく、汚染の可能性のあるmtHgが何であるかについては、言うまでもありません。張論文[1]では、MZRのmtHgは深く分岐し、以前には標本抽出されていないアジア系統に属する証拠として解釈される、基底的なM9である、と推測されています。しかし、コンセンサス配列はmtHg-M9の予測される派生的アレルのすべてを有しておらず、異なる系統と関連する派生的アレルや、固有のアレルを含んでいます。これは、haplogrepによると、0.78の低品質な得点となります。M以外のNやL3を含めて20系統の他のmtHgは、同じデータについて同等の品質の得点(0.76~0.78)を示します。本論文は、この配列を推測されたヒトの祖先的ミトコンドリア配列に配置せず、代わりに刊行されているmtHg-M9a配列を介して構築されたM9配列にも配置し、M9配列から、Phylotreeにより網羅されている変異が除外され、基底部のmtHg-M9に達しました。Haplogrepによって推測されたこの新たなmtHg(L3)はより基底的でさえあります。mtHg推定の不赤訂正と異常できわめて高い誤差の証拠は、手動分析でも見ることができます。mtHg-M9の診断部位(G4491A)は強く裏づけられてはいませんが、mtHg-M9と相関している他のアレル(T16362C)は超可変領域における反復変異なので、mtHg-M9の信頼できる裏づけとみなすことはできません。張論文[1]の戦略に従って、5’末端の2塩基対と3’末端の17塩基対で読み取りを刈り取ると、これらの問題は解決せず、たとえば、haplogrepによると最も可能性の高いmtHgはR9(M系統以外のmtHg)で、mtHgの品質得点は低いままです。
MZRのデータが正確にこの個体の由来する人口集団の祖先系統(祖先系譜、祖先成分、祖先構成、ancestry)を表している、と仮定してさえも、MZRのデータはじっさいには、アジア東部南方に始まり中国沿岸部を通ってAMHの北方への急速な拡大があり(中略)、最終的にはベーリング海峡を渡ってアメリカ大陸へと到達した、との張論文[1]の主要な結論を裏づけません。この調査結果は、アメリカ大陸先住民はアジア北東部のアムール川(Amur River、略してAR)流域の19000年前頃の個体AR19K[9]およびMZRと等しい割合でアレルを共有している、と示唆する対称性f₄統計を前提としているので、アメリカ大陸先住民が、後期更新世アジア南東部人とよりも後期更新世アジア北東部人の方と多くの類似性を有しているわけではない、と示唆していました。しかし、本論文の865万のSNP(Single Nucleotide Polymorphism、一塩基多型)一式を用いて、より強力に統計を再計算すると、アメリカ大陸先住民[10]はじっさいには、MZRとよりも、19000年前頃となるアムール川流域の個体の方と有意に多くの祖先系統を共有しており、それは、アメリカ合衆国モンタナ州西部のアンジック(Anzick)遺跡個体も対象とした、対称性D統計(MZR、AR19K;アンジック古代人、カメルーン古代人)が、ゼロ未満のZ=-3.6の標準誤差だからです。MZRのデータセットは分析困難ですが、MZRもしくは他の馬鹿洞の人々からの高品質なデータは原則として、東方の非アフリカ人の深い歴史への重要な洞察を提供できるかもしれません。
参考文献:
Tabin D. et al.(2025): Concerns about ancient DNA sequences reported from a Late Pleistocene individual from Southeast Asia. Current Biology, 35, 6, R212–R213.
https://doi.org/10.1016/j.cub.2024.10.012
[1]Zhang X. et al.(2022): A Late Pleistocene human genome from Southwest China. Current Biology, 32, 14, 3095–3109.E5.
https://doi.org/10.1016/j.cub.2022.06.016
関連記事
[9]Mao X. et al.(2021): The deep population history of northern East Asia from the Late Pleistocene to the Holocene. Cell, 184, 12, 3256–3266.E13.
https://doi.org/10.1016/j.cell.2021.04.040
関連記事
[10]Rasmussen M. et al.(2014): The genome of a Late Pleistocene human from a Clovis burial site in western Montana. Nature, 506, 7487, 225–229.
https://doi.org/10.1038/nature13025
関連記事
MZRはその形態から、非現生人類(Homo sapiens)ホモ属か、非現生人類ホモ属と現生人類との混合の可能性が指摘されていましたが、ミトコンドリアDNA(mtDNA)ハプログループ(mtHg)が出アフリカ現生人類系統に属するM9の絶滅した基底部系統に位置しており、核ゲノム分析から、アジア東部における初期に多様化した系統を表す現生人類である、と示唆されました[1]。張論文[1]では、MZRはアメリカ大陸最初の人類に寄与した祖先系統と深く間接的に関連していた、と指摘され、後期更新世に、アジア東部南方に始まり中国沿岸部を通ってAMHの北方への急速な拡大があり、おそらくは日本列島を経由し、最終的にはベーリング海峡(もしくは寒冷期にはベーリング陸橋)を渡ってアメリカ大陸へと到達した、と推測されました。
しかし本論文は、張論文[1]で報告されたMZRのDNA配列について、きわめて高い誤差率、異常な誤差分布、現代人の配列による汚染の証拠を示します。本論文は、これらの問題を無視しても、アメリカ大陸先住民はMZRおよびアジア北東部古代人と同様に関連している、との張論文[1]の結果を再現できなかった、と指摘します。古代ゲノム研究において汚染の問題は宿命とも言えますが、アジア南東部(張論文[1]ではアジア東部南方とされていますが、雲南省は境界地帯に位置していますし、そもそも便宜的な地理区分ですから、どちらかに拘る必要はないと思います)としては最古級のゲノムデータが得られた人類遺骸として私もたいへん注目したMZRですが、残念ながら本論文では現代人による汚染など品質に関する懸念が指摘されています。低品質なゲノムデータしか得られていなかった個体から、より高品質なゲノムデータの取得に成功し、集団遺伝学的な分析結果が修正されることもありますので(関連記事)、MZRについても、より高品質なゲノムデータが得られることを期待しています。
●要約
2022年の張論文[1]は、MZRと呼ばれる馬鹿洞の14000年前頃の女性骨格のDNA配列を報告しました。MZRのデータは、完新世の前のアジア南東部から報告された最初のDNA配列で、すべての以前に刊行された古代DNAデータと似ていない遺伝的関係を明らかにしました。本論文は、MZRの刊行されているDNA配列における、きわめて高い誤差率、異常な誤差分布、現代人の配列による汚染の証拠を示します。これらの問題を無視しても、張論文[1]の重要な集団遺伝学的調査結果、つまり、アメリカ大陸先住民はMZRおよびアジア北東部古代人と同様に関連している、との結果を再現できません。これらの結果は、アジア東部南方に始まり中国沿岸部を通ってAMHの北方への急速な拡大があり(中略)、最終的にはベーリング海峡を渡ってアメリカ大陸へと到達した、との主張など人口史について、および刊行されている配列の一般的な有用性についても、張論文[1]の結論に関する懸念を提起します。
●検証
MZRのゲノムの誤差率はきわめて高く、とくに懸念されるのは、これらの誤差が古代DNAに典型的ではないことです。この誤差を説明するために、MZRの不適正塩基対(ミスマッチ)のパターンがヒトゲノム参照配列と比較され、これは配列の誤りを検出する強力な手法です(図1)。mtDNAと核DNA両方のデータについて、最後のヌクレオチドにおける不適正塩基対率の増加が、古代DNAで予測されるシトシンの脱アミノ化だけではなく、全ての置換型で見られます。さらに、誤差率は多くの場合大きく、配列の末端からの距離の関数としての減少は、配列の5’末端上よりも3’末端上の方で緩やかであり、これは既知の実験室もしくは生物情報学的過程では予測されません(図1)。影響の一例として、MZRのmtDNAにおける非コンセンサスアレル(対立遺伝子)を裏づける読み取りの1番目と4番目と7番目と8番目に多い数の部位は、現代人256個体のミトコンドリアゲノムの多様な標本に存在しないアレルを裏づけます。異質性(heteroplasmy、個体ごとの複数のミトコンドリアゲノムの存在)はこのパターンを説明できず、妥当な説明は、これらの部位にはMZRのデータで高い誤差率があることです。誤差の過程はmtDNAに限定されているはずだ、と考える生化学的根拠はなく、これらの誤差は核ゲノムにも同様に存在する可能性が高そうです。以下は本論文の図1です。
古代DNAデータの確実性を検証する強力な手段はミトコンドリアゲノムで、それは、ミトコンドリアゲノムが単一の個体のみに由来する汚染されていない配列において多型的ではないと予測され、多くのコピー数あることによって、コンセンサス配列を決定し、それによってコンセンサスとの平均配列の不適正塩基対率を判断できるからです。MZRのmtDNAデータを分析するために、まずSAMtoolsを用いて、PCR(polymerase chain reaction、ポリメラーゼ連鎖反応)重複である可能性の高そうな断片が除外され、mtDNA部位の平均網羅率が99倍【張論文[1]では平均125.05倍】となりました。標準的な設定を用いて、これらの誤差データでContamMixを実行すると、コンセンサス配列に対して55~66%(95%信頼区間)の一致率が推定されました。これは、94~100%と、ずっと高いミトコンドリアのコンセンサス配列との一致率を推定した、張論文[1]の分析と一致しません。張論文[1]は手動で精選した14ヶ所の部位一式に分析を限定した後でこの推定値【94~100%】を得ており、張論文[1]がこの14ヶ所の部位一式を選択したのは、MZRの配列における誤差率は異常に高いと認識し、そうした誤差による影響が最小限の部位の部分集合に焦点を当てることによって、この課題に対処しようとしていたからでした。しかし、MZRのデータにおける誤差の過程はたいへん異常なので、本論文は、誤差が少ない傾向にある部位一式への濾過を通じて、適切ら対処できないかもしれない、と本論文は懸念しています。さらに、配列の刈り取り、片側の8塩基対もしくは5’末端および3’末端の17塩基対のどちらか、張論文[1]によって使用された手法は、両方の場合でContamMixが同様の汚染を推定しているので、これらの問題に対処していません。
張論文[1]は常染色体の汚染率の直接的な推定値0.7%、もしくはAuthentiCTソフトウェアを用いてのより少ない汚染率も報告しており、これは本論文の調査結果と一致しないようです。しかし、刊行されているMZRの配列は、AuthentiCTで要求される特徴を有していません。AuthentiCTは、損傷修復なしで構築された一本鎖の古代DNAライブラリの両端の損傷特性を比較します。実際の配列は、5’末端と3’末端の両方で過剰な脱アミノ化を示すはずですが、現代人の汚染はどちらも示さないはずです。したがって、汚染について末端間の相関が予測されます。しかし、刊行されているMZRの配列はおもに3’末端で損傷を示しています(図1)。標準的な一本鎖ライブラリと比較しての生化学的処理の相違なのか、あるいは生物情報学的問題に起因するのかどうかはともかく、AuthentiCTに必要な条件は満たされていません。
MZRのmtDNA配列の誤差率はひじょうに高いので、コンセンサスmtHgが何かさえ明らかではなく、汚染の可能性のあるmtHgが何であるかについては、言うまでもありません。張論文[1]では、MZRのmtHgは深く分岐し、以前には標本抽出されていないアジア系統に属する証拠として解釈される、基底的なM9である、と推測されています。しかし、コンセンサス配列はmtHg-M9の予測される派生的アレルのすべてを有しておらず、異なる系統と関連する派生的アレルや、固有のアレルを含んでいます。これは、haplogrepによると、0.78の低品質な得点となります。M以外のNやL3を含めて20系統の他のmtHgは、同じデータについて同等の品質の得点(0.76~0.78)を示します。本論文は、この配列を推測されたヒトの祖先的ミトコンドリア配列に配置せず、代わりに刊行されているmtHg-M9a配列を介して構築されたM9配列にも配置し、M9配列から、Phylotreeにより網羅されている変異が除外され、基底部のmtHg-M9に達しました。Haplogrepによって推測されたこの新たなmtHg(L3)はより基底的でさえあります。mtHg推定の不赤訂正と異常できわめて高い誤差の証拠は、手動分析でも見ることができます。mtHg-M9の診断部位(G4491A)は強く裏づけられてはいませんが、mtHg-M9と相関している他のアレル(T16362C)は超可変領域における反復変異なので、mtHg-M9の信頼できる裏づけとみなすことはできません。張論文[1]の戦略に従って、5’末端の2塩基対と3’末端の17塩基対で読み取りを刈り取ると、これらの問題は解決せず、たとえば、haplogrepによると最も可能性の高いmtHgはR9(M系統以外のmtHg)で、mtHgの品質得点は低いままです。
MZRのデータが正確にこの個体の由来する人口集団の祖先系統(祖先系譜、祖先成分、祖先構成、ancestry)を表している、と仮定してさえも、MZRのデータはじっさいには、アジア東部南方に始まり中国沿岸部を通ってAMHの北方への急速な拡大があり(中略)、最終的にはベーリング海峡を渡ってアメリカ大陸へと到達した、との張論文[1]の主要な結論を裏づけません。この調査結果は、アメリカ大陸先住民はアジア北東部のアムール川(Amur River、略してAR)流域の19000年前頃の個体AR19K[9]およびMZRと等しい割合でアレルを共有している、と示唆する対称性f₄統計を前提としているので、アメリカ大陸先住民が、後期更新世アジア南東部人とよりも後期更新世アジア北東部人の方と多くの類似性を有しているわけではない、と示唆していました。しかし、本論文の865万のSNP(Single Nucleotide Polymorphism、一塩基多型)一式を用いて、より強力に統計を再計算すると、アメリカ大陸先住民[10]はじっさいには、MZRとよりも、19000年前頃となるアムール川流域の個体の方と有意に多くの祖先系統を共有しており、それは、アメリカ合衆国モンタナ州西部のアンジック(Anzick)遺跡個体も対象とした、対称性D統計(MZR、AR19K;アンジック古代人、カメルーン古代人)が、ゼロ未満のZ=-3.6の標準誤差だからです。MZRのデータセットは分析困難ですが、MZRもしくは他の馬鹿洞の人々からの高品質なデータは原則として、東方の非アフリカ人の深い歴史への重要な洞察を提供できるかもしれません。
参考文献:
Tabin D. et al.(2025): Concerns about ancient DNA sequences reported from a Late Pleistocene individual from Southeast Asia. Current Biology, 35, 6, R212–R213.
https://doi.org/10.1016/j.cub.2024.10.012
[1]Zhang X. et al.(2022): A Late Pleistocene human genome from Southwest China. Current Biology, 32, 14, 3095–3109.E5.
https://doi.org/10.1016/j.cub.2022.06.016
関連記事
[9]Mao X. et al.(2021): The deep population history of northern East Asia from the Late Pleistocene to the Holocene. Cell, 184, 12, 3256–3266.E13.
https://doi.org/10.1016/j.cell.2021.04.040
関連記事
[10]Rasmussen M. et al.(2014): The genome of a Late Pleistocene human from a Clovis burial site in western Montana. Nature, 506, 7487, 225–229.
https://doi.org/10.1038/nature13025
関連記事

この記事へのコメント