現代人の高品質なゲノムデータから推測されるアフリカの複雑な人口史

 アフリカの広範な地域の現代人の高品質なゲノムデータを報告した研究(Fan et al., 2023)が公表されました。現生人類(Homo sapiens)の起源地であるアフリカは、最も現代人の遺伝的多様性が高い地域です。現代人の遺伝学的研究は、地域単位での比較では、ヨーロッパおよび北アメリカ大陸が最も進んでおり、それが現代人の遺伝的多様性の検証において基準とされる傾向にありました。現代人では最も遺伝的多様性が高いアフリカの現代人の遺伝学的研究の遅れは、現代人の遺伝的多様性をまだ充分に把握できていないことを意味しており、本論文はこれまで報告されていなかった数百万もの多様体を同定しました。これにより、現代人の遺伝的多様性の理解がさらに進んだことになり、病原性多様体の判定もより正確になると期待されるなど、本論文の意義は大きい、と言えそうです。


●要約

 この研究は、アフリカの12の先住人口集団の180個体の高網羅率(30倍超)の全ゲノム配列決定を実行しました。数百万の未報告の多様体が特定され、その多くは機能的に重要と予測されました。アフリカ南部のサン人とアフリカ中央部の熱帯雨林狩猟採集民(rainforest hunter-gatherers、略してRHG)は他の人口集団から20万年以上前に分岐し、大きな有効人口規模を維持した、と観察されました。アフリカにおける古代の人口構造、および高度に分岐した遺伝的系統を有する「亡霊(ゴースト)」人口集団からの複数の遺伝子移入事象の証拠が観察されます。現在地理的に孤立していますが、12000年前頃まで続いた東西のコイサン諸語話者狩猟採集民人口集団間の遺伝子流動の証拠が観察されます。肌の色や免疫応答や身長や代謝過程と関連する特徴の、局所的適応の痕跡が特定されました。PDPK1のエンハンサー活性と遺伝子発現の制御による生体外(in vitro)における色素沈着に影響を及ぼす、色素の薄いサン人における正の選択の多様体が同定されました。


●研究史

 アフリカは、過去30万年以内に解剖学的現代人が出現した大陸で、過去8万年以内となるアフリカからの解剖学的現代人の移住の供給源です(関連記事)。アフリカは、とてつもない文化と言語と表現型と遺伝的な多様性の大陸でもあります。アフリカでは2000以上の民族言語集団が特定されており、これは世界の言語の約1/3を表しています。これらの言語は、4つの主要語族に分類されており、それはアフロ・アジア語族とナイル・サハラ語族とニジェール・コンゴ語族とコイサン諸語です。

 アフロ・アジア語族は約400の言語で構成されており、おもにアフリカ北部および東部の農耕牧畜および農耕人口集団により話されています。ナイル・サハラ語族は12の語派を形成する約206の言語で構成されており、おもにアフリカ中央部および東部の牧畜民により話されています。遺伝学と言語学と考古学のデータは、過去105000年以内にエチオピアとスーダンの国教近くに起源がある、ナイル・サハラ語族話者人口集団の共通の祖先系統(祖先系譜、祖先成分、祖先構成、ancestry)の可能性を示唆します。ニジェール・コンゴ語族は1500の下位語族で構成され、アフリカにおける最大の語族です。その最大の語派はバントゥー諸語で、カメルーンとナイジェリアの国境近くに起源があります。バントゥー諸語話者人口集団は鉄器技術と焼畑農耕を用いており、これはより大きな人口規模と、5000年前頃に始まるアフリカ東部および南部への移住を促進しました(「バンツー拡大」として知られています)。

 コイサン諸語は吸着音を特徴としており、おもにアフリカ南部のサン人集団とタンザニアのハッザ人(Hadza)およびサンダウェ人(Sandawe)で話されており、話者の全ては現在もしくは最近まで、狩猟採集を行なっています。しかし、サン人とハッザ人とサンダウェ人の言語は高度に分岐しており、隠逸の語族としての分類は議論され続けています。言語学的研究から、サンダウェ語はハッザ人の言語よりもアフリカ南部のサン人の言語の方と類似している、と示唆されています。さらに、砂漠や熱帯雨林やサバンナや低湿地や標高の高い山脈を含むさまざまな環境に暮らしているアフリカの人口集団は、気候や食性や病原体曝露など多様な環境圧に適応してきており、局所的適応が促進されました。

 アフリカが解剖学的現代人の起源と進化に果たしてきた重要な役割にも関わらず、アフリカ人はヒトゲノム研究において過小評価されています。アメリカ合衆国におけるアフリカ系の人々は、高血圧や糖尿病や腎不全など一般的な疾患の割合が不釣り合いに高く、環境(社会人口学的・経済的・健康の利用権利を含みます)と遺伝両方の要素に起因する可能性が高そうです。したがって、遺伝学的研究におけるアフリカの人口集団の表示の欠如は、ヒト進化史の理解を妨げるだけではなく、公正な精密医療の発展を制約もします。

 アフリカにおける全ゲノム配列決定(whole-genome sequencing、略してWGS)研究は、標的とされる地理的地域に焦点を当てたか(関連記事)、特定の民族集団の1~6個体を用いましたが(関連記事)、この研究では、アフリカの12の先住人口集団から標本抽出された180個体の高網羅率WGSが生成されました(1人口集団あたり15個体)。その内訳は、エチオピアのアムハラ人(Amhara)とディズィー人(Dizi)とチャブ人(Chabu)とムルシ人(Mursi)、タンザニアのハッザ人(Hadza)とサンダウェ人(Sandawe)、カメルーンのバカ人(Baka)およびバジェリ人(Bagyeli)を単一の人口集団にまとめたRHG(熱帯雨林狩猟採集民)とフラニ人(Fulani)とティカール人(Tikari)、ボツワナのヘレロ人(Herero)とジュホアン人(Ju|’hoansi)およびクー人(!Xoo)です(ジュホアン人とクー人はまとめてサン人と呼ばれます)。これらの人口集団は、アフリカの4語族全てを含む言語を話します。

 ハッザ人とサン人が依然として伝統的な狩猟採集生計様式を行なっている(ただ、サン人は今では食糧補助金を受け取っています)のに対して、サンダウェ人は過去数千年間に農耕と牧畜を採用してきました。低身長に基づいて「ピグミー」と呼ばれてきたRHGは、その伝統的な言語を失い、今ではバントゥー諸語を話しています。そうした言語置換は、伝統的に遊牧民であり、スーダンとアフリカ中央部および西部を含むアフリカの広範囲に暮らしているフラニ人でも起きました。フラニ人は今では、アフリカ西岸で話されている言語と最も類似したニジェール・コンゴ語族言語を話しています。チャブ人は人口調査によるとわずか1000~2000個体で(関連記事)、エチオピア南西部の山岳地域に暮らしており、採食生活様式を行なっています。その言語は「孤立言語」と考えらており、世界の「深刻な危機に瀕している言語」の一つです。言語学的研究では、チャブ語祖語はナイル・サハラ語族の初期の分枝に由来するかもしれない、と示唆されています。

 これらの人口集団全体で、何百万ものゲノム多様体が特徴づけられ、その多くは機能的関連で生物医学的関連の可能性がある、と予測されました。本論文は複数の手法を用いて、これら人口集団の系統発生的関係と混合事象と有効人口規模を再構築しました。本論文はさらに、局所的適応に寄与したかもしれない正の選択の人口集団固有の兆候を同定し、適応的表現型へのこれら多様体の一部の影響を特定しました。


●標本

 アフリカの12人口集団から1人口集団あたり15個体の高網羅率(30倍超)のWGSデータが生成され、これは以前の混合分析に基づくと、サハラ砂漠以南のアフリカにおける最も多様な遺伝的祖先系統を表します(図1A)。品質管理の後、合計で35201568個の多様体が同定されました。それは、32438935の一塩基多型(SNP)と、2762633の小さな挿入および欠失です。さらなる分析が、両アレル(対立遺伝子)の32044896のSNPに限定されました。SNPの平均数は人口集団で大きく異なります(図1B)。サン人およびRHG個体が最多のSNP(図1B)と最高水準の遺伝的多様性(図1C)を有しているのに対して、強い非アフリカ系との混合を経た(たとえば、エチオピアのアムハラ人)か、人口調査規模の小さい(たとえば、ハッザ人やチャブ人)人口集団の個体は、SNPが最小(図1B)で、遺伝的多様性が最低です(図1C)。以下は本論文の図1です。
画像

 dbSNPの第155版もしくはgnomAD(関連記事)第2.1版で報告されていない5344342のSNPが同定されました(図1D)。未報告のSNPの約78%は人口集団固有で、15%は同じ国の人口集団により共有されており、7%は異なる国に居住する人口集団により共有されています(図1E)。未報告のSNPの多様体は、以前に報告されていたSNPの多様体よりも有意に稀です。ディズィー人とジュホアン人とクー人は人口集団固有の未報告の多様体を最も多く有しており(図1F)、ジュホアン人とクー人は同じ国の人口集団間で未報告のSNPが最多でした。異なる国の人口集団間で共有されている未報告の多様体(図1H)のうち最多は、アフリカ南部(ジュホアン人とクー人)と東部(ハッザ人とサンダウェ人)との間、およびハッザ人とサンダウェ人とエチオピアの人口集団(アムハラ人とディズィー人とムルシ人とチャブ人)の間で共有されています。

 未報告のSNPでは、ANNOVAR を用いての機能的注釈に基づいて、28901のアミノ酸変化もしくは499の停止コドンの増減を引き起こす多様体と、転写因子結合部位(transcription factor binding site、略してTFBS)領域における95844の多様体、エンハンサーにおける253334の多様体、活性プロモーター領域における47777の多様体が同定されました。さらに、本論文のデータセットにおける154のSNPがClinVarデータベースにおいて「病原性」もしくは「病原性の可能性が高い」と報告されていました。

 これらのうち、44のSNPはこの研究の人口集団の少なくとも1つで0.05以上の頻度ですが、gnomADにおいて、非アフリカ系人口集団では存在しないか0.01未満の頻度です。たとえば、rs74853476-Cは、非アフリカ系標本において起立性低血圧1と関連するドーパミンβ水酸化酵素(dopamine beta-hydroxylase、略してDBH)のスプライスドナー多様体です。rs74853476-CはgnomADでは全ての超人口集団において稀ですが、フラニ人では13%の頻度に達します。別の事例は、アフリカ祖先系統の患者の頭頂部遠心性瘢痕性脱毛症(central centrifugal cicatricial alopecia)と関連すると報告されている、ペプチド1アルギニンデイミナーゼ3(peptidyl arginine deiminase 3、略してPADI3)における、3点のミスセンス変異(アミノ酸が変わるような変異)、つまりrs139426141-Gとrs140482516-Tとrs34097903-Aで構成されます。

 これらの各多様体は調べられた人口集団の少なくとも1つでは高頻度ですが、gnomADでは、非アフリカ系超人口集団において稀です。したがって、ClinVarにより病原性と推定されると分類されている多様体の数は、本論文で対象となる人口集団の1つもしくは複数において高頻度で、実際には良性かもしれません。これらの観察は、ヒトの遺伝学的研究において民族的に多様な人口集団を含める必要性を強調します。それは、とくに、希少性が臨床研究において多様体の病原性決定の基準として用いられるからです。


●世界規模の文脈におけるアフリカの人口集団の系統発生的関係

 本論文のアフリカのWGSデータをサイモンゲノム多様性計画(Simons Genome Diversity Project、略してSGDP)から得られたパプア人のWGSデータ、および1000人ゲノム計画(1000 Genomes Project、略して1KGP)ユタ州のヨーロッパ西部および北部人・トスカナ人・北京の漢人と統合した後で、移住と組換えを無視したMEGAを用いて近隣結合系統樹が構築されました。したがって、混合人口集団は近隣人口集団と相互にクラスタ化している(まとまっている)かもしれません。ジュホアン人とクー人が全ての現代人の最基底部系統で、RHGがそれに続く、と観察されました(図2)。以下は本論文の図2です。
画像

 残りの人口集団はいくつかの例外を利沿い手、現在の地理的位置によりほぼクラスタ化します。たとえば、カメルーンのフラニ人はアフリカ東部のアフロ・アジア語族話者人口集団とクラスタ化し、それらの人口集団との共通の祖先系統およびサヘル地域を横断しての移住期における言語置換が示唆されます。さらに、チャブ人はナイル・サハラ語族話者のムルシ人とクラスタ化し、チャブ語の言語学的分類と一致します。ハッザ人とサンダウェ人は相互に近くにクラスタ化しましたが、単系統的集団を形成せず、恐らくはサンダウェ人と他のアフリカ東部人口集団との間の強い混合に起因します(図3E)。以下は本論文の図3です。
画像

 先行研究と一致して、フラニ人とエチオピアの2つのアフロ・アジア語族話者人口集団であるアムハラ人とディズィー人は、系統発生的分析に基づくと非アフリカ人口集団と遺伝的に最も近い、と分かりました。しかし、アレル(対立遺伝子)共有に基づくD統計での分析から、出アフリカ供給源人口集団は本論文のデータセットでは、全ての非RHG、つまり非サン人集団の祖先だった、と示唆されます。これは、図2における非アフリカ系人口集団とフラニ人およびアムハラ人およびディズィー人とのクラスタ化が、これらの人口集団への非アフリカ人からの(直接的もしくは間接的な)遺伝子流動に起因することを示唆しており、これはD統計を用いて確証されました。


●アフリカの人口集団の複雑な人口史

 SGDPから得られた世界規模のWGSデータセットと統合された本論文のデータセットの主成分分析(principal component analysi、略してPCA)は、遺伝的差異の大陸および人口集団両方に固有のパターンを明らかにします。主成分1(PC1)はアフリカ人と非アフリカ人を分離し、アフリカ北部と中東の人口集団で、先行研究と一致します(図3A)。PC2はサン人を他のアフリカ人と区別します(図3A)。その後の主成分は、ハッザ人とチャブ人とディズィー人とムルシ人をPC3に沿って区別し、バカ人とバジェリ人とバコラ人(Bakola)とビアカ人(Biaka)とベヅァン人(Bedzan)とムブティ人(Mbuti)で構成されるRHG人口集団がPC4に沿って区別されます。PCAにおいて10000~160年前頃のアフリカ東部および南部の古代人標本55点を含めると、以前に指摘された(関連記事)アフリカにおけるコイサン関連個体群の広範な地理的分布が観察されました(図3D)。

 アフリカ東部(関連記事)など古代人標本15点は、現在のアフリカ東部と南部のコイサン諸語話者狩猟採集民人口集団間の地理的勾配と重複するか、収まります(図3D)。たとえば、エチオピアのモタ洞窟(Mota Cave)個体(4524~4418年前頃)とタンザニアおよびケニアの古代の採食民(4080~160年前頃)は、PCAにおいてサンダウェ人およびハッザ人と重複します。南アフリカ共和国の古代人標本5点(1069~817年前頃)は、現在のアフリカ南部のサン人集団と重なるか、その近くに位置し、先行研究(関連記事)と一致します。

 統合されたデータセットのADMIXTURE分析は、K(系統構成要素数)=2においてアフリカ系人口集団と非アフリカ系人口集団を分離しました。K=4では、サン人の祖先系統(黄色)が明確になり、RHGとサンダウェ人とハッザ人でも一般的です。K=7では、アフリカ東部の人口集団(たとえば、ハッザ人、サンダウェ人。チャブ人、ディズィー人、アムハラ人、ムルシ人)はクラスタとして現れます(暗青緑色)。K=8では、フラニ人が独特なクラスタを形成しました(紫色)。ハッザ人はK=10でクラスタとして現れ(茶色)、RHG(濃紫色)とチャブ人(黄緑色)はK=12で明確なクラスタになります。

 K=16では、コイサン諸語北部語を話すジュホアン人(濃緑色)、コイサン諸語南部語を話すクー人およびコマニ(Khomani)サン人(黄色)が区別されるようになります(図3E)。さらに、ディンカ人(Dinka)やムルシ人やセングワ人(Sengwer)などナイル・サハラ語族話者人口集団は、K=16で単一のクラスタ(薄茶色)になりました。ニジェール・コンゴ語族関連祖先系統(赤色)はサハラ砂漠以南のアフリカに広範に拡大したと推測されていますが、近隣の人口集団とさまざまな程度で混合したアフリカ東部および南部のニジェール・コンゴ語族話者人口集団と比較して、レマンデ人(Lemande)やティカール人などアフリカ西部および中央部のニジェール・コンゴ語族話者人口集団において最も一般的です。

 バントゥー諸語を話すヘレロ人は、サン人との混合水準が低くなっています。さらに、サンダウェ人はアフロ・アジア語族話者(明るい青色、50%程度)およびニジェール・コンゴ語族話者(赤色、25%程度)関連の祖先系統を高水準で有していますが、ハッザ人(茶色)およびサン人(黄色/濃緑色)と関連する祖先系統を低水準で有しており、祖先系統の共有および/もしくはアフリカ南部と東部の狩猟採集民人口集団間の古代の遺伝子流動を反映しています。

 TreeMixとqpgraphを用いて、より複雑な人口史がモデル化されました。混合を認めない場合、qpgraph(図4A)とTreeMixに基づく形態は、近隣結合樹(図2)と一致し、サン人が全ての他の人口集団の外群となります。しかし、人口集団間の混合を認めると、qpgraph(図4B)とTreeMixの形態は大きく変わります。10回の混合事象をモデル化すると、qpgraphでは、アフリカ東部のコイサン人口集団であるハッザ人とサンダウェ人はそれぞれ、その祖先系統の71%と38%がアフリカ南部のコイサン人口集団の祖先人口集団に由来する、と推定され、これは9回の移住事象でのTreeMixから推測されるハッザ人とサンダウェ人とサン人の間の移住と一致します。これらの人口集団、とくにサンダウェ人(図4B)は、アフロ・アジア語族話者的人口集団にも祖先系統が由来しており、最近のアフロ・アジア語族話者からの遺伝子流動(図3E)を反映している可能性が高く、4回の移住事象でのTreeMixと一致します。

 エチオピアの人口集団(アムハラ人とディズィー人とムルシ人とチャブ人)は、その祖先系統のうち、98%がハッザ人の祖先人口集団、2%が全ての現代の人口集団の祖先人口集団に由来する、と推定されます(図4B)。2%と推定されている後者は、非アフリカ人との高水準の混合に間接的に起因する、エチオピア人へともたらされたネアンデルタール人(Homo neanderthalensis)からの遺伝子移入(関連記事)を反映しているかもしれません(図3E)。さらに、オモ語派話者のディズィー人の祖先系統は、80%がチャブ人関連人口集団に、20%がアムハラ人関連人口集団にたどれて、7回の移住事象でのTreeMixと一致します。さらに、qpgraphでは、RHGはその祖先系統の37%がサン人の祖先人口集団に、63%がニジェール・コンゴ語族話者人口集団に由来する(図4B)、と示唆され、バントゥー諸語話者からRHGへの高水準の遺伝子流動と一致します。

 他の人口集団とのティカール人とヘレロ人の関係は複雑です。両者は、全ての現代の人口集団の分岐の前に分岐した古代の人口集団と関連する祖先系統が23%、ナイル・サハラ語族話者のムルシ人と関連する人口集団に由来する祖先系統が77%としてモデル化できます。類似のパターンは、K=7~11でのADMIXTURE分析で観察されますが、ティカール人とヘレロ人ではナイル・サハラ語族話者関連祖先系統の推定がずっと低くなっています。TreeMix分析は、5回の移住事象で始まるムルシ人とティカール人およびヘレロ人の祖先との間の遺伝子流動の証拠を示しました。バントゥー諸語話者系統の祖先人口集団における古代の遺伝子移入を示唆する結果は、アフリカの古代人標本に基づく先行研究(関連記事)と一致し、その先行研究では、アフリカ西部のニジェール・コンゴ語族話者人口集団は全ての現代人系統の祖先的な系統を有している、と示唆されました。しかし、別の手法(後述)を用いて推測された時間分解された人口史では、サン人とRHGが他の現代人系統から最初に分岐したかもしれない、と示唆されます。以下は本論文の図4です。
画像

 ADMIXTUREの結果と一致して、TreeMixとqpgraphの結果はアフリカの人口集団における広範な最近の遺伝子流動を検出しました(図4B)。フラニ人の祖先系統は、50%がアムハラ人と関連する人口集団、50%がティカール人と関連する人口集団に由来し、3回の移住事象でのTreeMixの結果と一致します。後者の結果は上述のADMIXTURE分析(図3E)および核ゲノムの差異に基づく先行研究と一致し、フラニ人はアフロ・アジア語族話者人口集団と祖先系統を共有しており、サヘル全域を移動するにつれてニジェール・コンゴ語族話者人口集団と混合した、と示唆されます。ゲノムに沿って祖先系統共分散の減衰を用いて遺伝子流動事象を年代測定するDATESを用いると、フラニ人の混合事象は90±40世代前(1世代29年と仮定して3800~1400年前頃)に起きた、と推定され、遊牧民のその後の完新世拡大事象と一致します。

 本論文のWGSデータも、2つのモデル化手法であるMSMC(Multiple Sequentially Markovian Coalescent、複数連続マルコフ合祖)とmomiを用いて、人口史の詳細な分析を可能としました。MSMC分析は遺伝子流動をモデル化してないので、高度に混合した人口集団における分岐を過小評価する可能性が高そうです。全ての現代の人口集団の祖先人口集団の調査から始められました。Momiを用いて、人口集団が単一の任意交配供給源から分岐したモデルと、人口集団が構造化された人口集団から分岐したモデルとが比較されました。人口集団の全ての組み合わせで、全ての現代人は深く構造化された人口集団の子孫で、その祖先系統の約5~15%は、長ければ300万~100万年前頃に分岐したかもしれない系統に由来する、と推測され(図4C)、一部のアフリカの人口集団における古代の遺伝子移入を示唆する以前の調査結果(関連記事)と一致します。しかし、そうしたモデルは、深く日宇増加した現代人の祖先人口集団とも一致します。

 次に、現代の人口集団間の分岐年代が測定されました。最古の人口集団分岐を調べるため、momiを用いて、サン人(ジュホアン人)、アフリカ東部のコイサン諸語話者(ハッザ人)、RHG(バカ人)、バントゥー諸語話者(ティカール人)の人口集団と関連する時間分解された人口統計学的モデルが推定されました。外群をRHGとするモデル、外群をサン人集団とするモデル、RHGとサン人を全ての他の人口集団の祖先人口集団に由来する姉妹クレード(単系統群)とするモデルが検証されました。サン人とRHGを姉妹クレードとするモデルが一貫して可能性は最も高く、これらの人口集団間の最古の分岐はサン人およびRHGをハッザ人およびティカール人から早ければ285000年前頃に分離した、と示唆されます(図4C)。同様に、サン人もしくはRHGをあらゆる他のアフリカの人口集団と比較すると、MSMCの「交差合着(合祖)率」曲線(“cross-coalescence rate” curves、略してCCR)は、15万年前頃から20万年以上前まで、90%以上に達しません。まとめると、これらの結果から、最古の分岐はサン人およびRHGを他の全ての人口集団から分離し、この分岐は少なくとも15万年前頃までに起き、早くも285000年前頃に起きたかもしれない、と示唆されます。

 人口集団の全ての他の組み合わせは、もっと最近の分岐が推測され、momiは68000年前頃未満の分岐を推測し、MSMCのCCRは42000年前に50%に達しました。とくに、コイサン諸語内への位置づけが議論となっている孤立した言語を話すにも関わらず、サン人とRHGと他の人口集団との間の分岐と比較して、ハッザ人とサンダウェ人と非サン人/非RHGの人口集団間のより最近の分岐時間が推測されました。ハッザ人を非サン人/非RHGの人口集団と比較すると、momiは60000~25000年前頃の分岐時間を推測し、MSMCは42000~29000年前頃の50%のCCRを推測しました。アフロ・アジア語族話者とニジェール・コンゴ語族話者の人口集団の分岐時間は、momiとMSMCを用いると35000~22000年前頃と推定されました。

 語族内でさえ、古代の人口構造の証拠が観察されました。たとえば、バントゥー諸語話者のティカール人とヘレロ人との間では、momiは2万年前頃の分岐時間を推測し、MSMCのCCRは11000年前頃に50%に達しました。コイサン諸語話者のジュホアン人とクー人との間の分岐時間は、momiを用いると18000年前頃、MSMCを用いると24000年前頃と推定され、以前の推定と一致します。さらに、アフリカ東部のコイサン諸語話者のハッザ人とサンダウェ人の分岐は、MSMCを用いると23000年前頃、momiを用いると25000年前頃と推定されました。アフロ・アジア語族話者のアムハラ人とディズィー人の分岐は、momiを用いると30000年前頃、MSMCを用いると22000年前頃と推定されました。最後に、ナイル・サハラ語族話者のチャブ人とムルシ人の分岐は、momiを用いると22000年前頃、MSMCを用いると17000年前頃と推定されました。全ての対でのmomiの結果は補足表2に提示され、補足図7のモデルに基づいています。


●アフリカにおける有効人口規模の時間的動態

 対での逐次マルコフ合着(pairwise sequentially Markovian coalescent、略してPSMC、関連記事)およびSMC++を用いて、早ければ20万年前頃の有効人口規模(Ne)の違いが観察されました(図5)。20万~5万年前頃までは、RHGとサン人は他の人口集団と比較してより大きなNeを有していました(図5A)。アムハラ人とディズィー人は、他のアフリカの人口集団と比較してNeが最低です(図5A)。ハッザ人とチャブ人とヘレロ人とフラニ人を含む4人口集団は、10000~1000年前頃に劇的な人口規模減少を経ました(図5B)。とくに、ハッザ人とチャブ人両方のNeは、10000人から200人へと減少し(図5B)、現在の人口調査規模の1000人と一致します。以下は本論文の図5です。
画像


●アフリカ人における局所的適応

 多様な環境や食性への局所的適応に役割を果たすかもしれない候補遺伝子座を同定するため、Di統計を用いて、他のアフリカの人口集団と比較して各人口集団において高度に異なるアレル頻度を有する遺伝子座が同定されました。各SNPについてDiが計算され、99.9百分位数に収まる外れ値がDi-SNPとして定義されました。GREATを用いて、Di-SNPに近い遺伝子の機能的影響が推測されました。国立ヒトゲノム研究所(National Human Genome Research Institute、略してNHGRI)のヨーロッパ生物情報学研究所(European Bioinformatics Institute、略してEBI)のゲノム規模関連研究(genome-wide association studies、略してGWAS)目録と、イギリス王国生物銀行(United Kingdom biobank、略してUKBB)標本を用いて、GWASから得られた有意なSNPと重複するDi-SNPも同定されました。その結果、多様な人口集団におけるさまざまな特徴で局所的適応の証拠が観察されました(図6)。以下は本論文の図6です。
画像

 他のアフリカの人口集団よりも肌の色が薄いサン人(関連記事)は、OCA2やTYRP1やSLC24A5などMITF皮膚の色素沈着と関わる遺伝子や、ケラチン遺伝子座(たとえば、KRT25やKRT27やKRT71)など他の皮膚の表現型と関わる遺伝子の近くにDi-SNPが濃縮されている、と分かりました。先行研究では、OCA2やTYRP1やSLC24A5やMITFといった遺伝子における変異が、ティーツェ白化難聴症候群(Tietz albinism-deafness syndrome)や眼白皮症(ocular albinism)2・3・6型の原因となるかもしれない、と示されています。OCA2の遺伝子本体では、112のDi-SNPが特定され、1つは同義変異、1つは非同義変異、110はイントロン変異でした。OCA2遺伝子における非同義多様体(rs1800417)は、サン人において皮膚の色素沈着の差異とは関連していない、と以前に報告されており、エクソン10における同義多様体であるrs1800404は、複数の民族において皮膚の色素沈着および目の色の差異と関連しています。薄い色素沈着と関連するアレルrs1800404-Tは、OCA2遺伝子の接合(スプライシング)量的形質遺伝子座(quantitative trait locus、略してQTL)で、この研究とgnomADにおいて、フィンランドの人口集団(84%)を除く全ての他の人口集団と比較して、サン人において最高頻度です(83%)。

 PDPK1遺伝子本体内で、サン人において22のDi-SNPも観察されました。PDPK1は色素細胞増殖の重要な調節因子で、PDPK1の喪失はマウスにおいて皮膚の色素沈着を減少させます。興味深いことに、1つのDi-SNP(rs77665059)は、PDPK1のイントロンにおいて色素細胞固有のオープン染色質(クロマチン)領域と重複しています(図7A)。祖先的アレル(rs77665059-C)はジュホアン人(0.67)とクー人(0.83)において、他の人口集団(平均頻度は、この研究の非サン人集団では0.14、gnomADにおける世界規模の人口集団では0.03)と比較してより高い頻度を示します。クロマチン免疫沈降配列決定(Chromatin immunoprecipitation sequencing、略してChIP-seq)データから、この領域は色素細胞のH3K27acとH3K4me1の兆候で濃縮されており、転写因子のMITFおよびSOX10(色素細胞の発達と色素沈着遺伝子の発現と関わっています)とSMARCA4(染色質リモデラー)の部位を結びつけている、と明らかになりました(図7A)。

 2つの黒色腫細胞株であるMNT-1(高度に色素沈着)とWM88(少ない色素沈着)におけるルシフェラーゼレポーターアッセイに基づいて、両細胞株において祖先的なCアレルは派生的なAアレルと比較してエンハンサーを増加させる、と観察され(図7C)、遺伝子型・組織発現(Genotype-Tissue Expression、略してGTEx)において繊維芽細胞でPDPK1のより低い量の発現と関連していることと一致します。Cアレルを有する個体群は、サン人においてAアレルを有する個体群と比較して、より薄い皮膚の色素沈着です(図7E)。さらに、このエンハンサーのCRISPR阻害は、MNT-1細胞において、PDPK1とメラニンの水準の発現を有意に減少させます。これらの観察から、このSNP(rs77665059)は、生体外で色素沈着に影響を及ぼし、サン人においてPDPK1のエンハンサー活性と遺伝子発現の調節により皮膚の色に影響を及ぼすかもしれない、色素細胞におけるエンハンサー活性内にある、と示唆されます。以下は本論文の図7です。
画像

 マウスにおいて毛包発達と「狭い目の開口部」に関わる遺伝子の近くでも、サン人においてDi-SNPの濃縮が観察されました。この観察は、サン人における独特な毛包形態(密に螺旋状になっています)と狭い目の形態の記述と一致します。とくに興味深いSNPの1つは、KRT74遺伝子の非同義多様体(rs111298318)です。KRT74遺伝子の変異はヒトにおいて「羊毛状毛髪」を起こす、と知られています。rs111298318-C多様体はサン人において頻度が0.73超で、本論文における他のアフリカの人口集団では頻度が0.05未満のとなり、gnomADでは非アフリカ系超人口集団においてほぼ存在しません。

 RHGでは、苦み受容活性と関わる遺伝子(たとえば、TAS2R1やTAS2R10)と免疫応答に関わる遺伝子(たとえば、HLA-DOAやIL2やIL4R)の近くでDi-SNPの濃縮が見つかり、先行研究と一致します。さらに、RHGの低身長と関連しているかもしれない、CISH/DOCK3/MAPKAPK3やGHRやIGF1やBMP4やBMP6やANKRD11やTRPS1やACANなど、骨の成長と軟骨細胞に関わる遺伝子の近くでDi-SNPの濃縮が観察されました。とくに、RHG の身長の差異と有意に関わっていた3番染色体(4500万~6000万塩基対)の1500万塩基対の領域では、76のDi-SNPのうち75がGTExのDOCK3もしくはMAPKAPK3の発現量的形質遺伝子座(eQTL)と予測されました。さらに、312のDi-SNPが、以前のGWASでは身長と有意に関連しており、RHGの低身長の表現型は複数の遺伝子座における正の選択に起因する可能性が高い、と示唆されます。

 フラニ人とチャブ人では、免疫関連経路で役割を果たす遺伝子の近くでDi-SNPの濃縮が観察されました。先行研究では、フラニ人は同様の環境の他の民族集団と比較して重度のマラリアへの耐性がより高い、と示されてきました。フラニ人では、IL6やIL6RやIL6STなど「インターロイキン6への細胞応答」と関わる遺伝子の近くで、Di-SNPの有意な濃縮が観察されました。遺伝子発現分析に基づく先行研究では、シグナル伝達経路のIL6の遺伝子がフラニ人で観察されたマラリアへの相対的耐性に役割を果たすかもしれない、と示唆されています。3つのDi-SNPのrs1889314-Aとrs10908834-Tとrs12118634-Tは、本論文で対象とされているかgnomADデータベースの他のアフリカの人口集団よりもフラニ人の方で頻度は高く、代替のアレルと比較してIL6Rの増加した発現と有意に関連しています。

 チャブ人では、フラニ人と比較して、さまざまな環境と病原体への適応を反映している、免疫応エフェクター過程、正のα-βT細胞活性、分化の正の調節と関わる遺伝子の近くでDi-SNPsの濃縮が観察されました。MICA遺伝子座内もしくはその近く(±5000塩基対)で318のDi-SNPも検出され、8ヶ所(rs1063630、rs1051786、rs1051792、rs1051794、rs1131898、rs1051798、rs1051799、rs61738275)のミスセンス変異(アミノ酸が変わるような変異)が含まれます。2ヶ所のSNP(rs1063630とrs61738275)は1つの連鎖不平衡(linkage disequilibrium、略してLD)群にありますが、他の6ヶ所のSNPは別のLD群にあります。MICAはNKG2Dの結合基で、ナチュラルキラー細胞とCD8T細胞の細胞傷害性を誘発し、自然免疫応答の重要な構成要素として作用します。

 ハッザ人では、心臓の機能と発達に関連する経路で役割を果たす遺伝子の近くでDi-SNPの濃縮が観察され、その遺伝子には、BMP2やHEY1やMYH6やRYR2やPITX2やTPM1が含まれます。先行研究では、心臓関連経路の遺伝子は、アフリカとアジアのRHG人口集団において正の選択の標的であるため濃縮されている、と示されてきました。ハッザ人は、伝統的な狩猟採集生活様式を行なっており、毎日の驚くべき移動距離でよく知られている、世界的に数少ない人口集団の1つです。男性は動物の狩猟と蜂蜜採取に1日あたり平均13km、女性は植物性食料の採食で1日あたり平均8km歩きます。したがって、心臓発達に関わる遺伝子座での選択は、この人口集団において適応的かもしれません。

 サンダウェ人のDi-SNPは、骨格筋線維の発達や胚の頭蓋骨角形態発生や頭蓋および頭蓋顔面縫合の形態発生など、顔面および骨格の筋肉発達と関わる遺伝子の近くにあります。たとえば、骨格筋発達に関わるMEF2CやTBX3やHIF1ANといった遺伝子、および頭蓋の発達と形態に重要な役割を果たすFGFR2やTGFBR2やTBX15やTWIST1といった遺伝子の近くで、Di-SNPが検出されました。これらの遺伝子座の適応的な意義は不明です。

 ヘレロ人とティカール人では、高血圧や腎臓病や肥満や糖尿病に役割を果たす遺伝子座でDi-SNPが観察され、こうした疾患はアメリカ合衆国では他の民族集団と比較してアフリカ系において相対的に一般的です。ヘレロ人では、圧受容体反応による全身動脈血圧の調節、アドレナリンの有無による血圧の正の調節、アドレナリンの有無による全身動脈血圧の調節、全身動脈血圧の調節と関わる神経系過程など、オントロジー(概念や用語の明示的仕様)が、Di-SNPで有意に濃縮されています。ヘレロ人における23のDi-SNP一式は、UKBB標本の以前のGWASでは、血圧特性(たとえば、収縮期と拡張期の血圧)と有意に関連しています。たとえば、本論文で対象となった他の人口集団およびgnomADの人口集団と比較して、ヘレロ人ではrs7821832-Gが最高頻度で、UKBB標本では収縮期血圧および拡張期血圧と有意に関連しています。ティカール人では、長鎖脂肪酸輸送に関わる遺伝子の近くでDi-SNPの濃縮が観察されました。たとえば、そうしたDi-SNPの1つであるrs2717609-Tは、UKBB標本の以前のGWASでは、体脂肪割率や全身の脂肪量や体幹脂肪量や腰の周囲径などの特徴と有意に関連しています。

 ムルシ人とアムハラ人とディズィー人では、乾燥することが多くも水の利用可能性がほとんどない環境への適応を反映しているかもしれない、腎臓の発達と形態に関連する経路と関わる遺伝子で濃縮が観察されました。たとえば、アムハラ人とディズィー人とムルシ人のDi-SNP(rs9823161とrs72841902とrs4567493)は、複数の祖先系統標本に基づく以前のGWASでは腎機能と関連している特徴と有意に関連している、と分かりました。rs9823161-Aとrs72841902-Aは推定される腎糸球体濾過率と関連しており、rs4567493-Aは血中尿素の窒素水準と負に関連しています。

 統合ハプロタイプ得点統計を用いて、拡張ハプロタイプ同型接合性に基づく最近の正の選択の兆候を示す遺伝子座も検出されました。外れ値としての極端な統合されたハプロタイプの最高割合のウィンドウの上位1%が定義され、最近の正の選択の共有される痕跡を示すいくつかの遺伝子座が観察されました。たとえばエチオピアのチャブ人とムルシ人とディズィー人では、主要組織適合複合体(major histocompatibility complex、略してMHC)遺伝子座における正の選択の共有された痕跡が観察されました。人口集団固有の正の選択の兆候も同定されました。たとえば、強い統合ハプロタイプ得点(integrated haplotype score、略してiHS)を示す外れ値ウィンドウに位置する遺伝子は、アムハラ人では、SNP配列データに基づくアムハラ人での観察と一致しているアルコール脱水素酵素活性(たとえば、DH4やADH5やADH6やADH7やADH1A)、ハッザ人では苦み受容活性(たとえば、TAS2R20やTAS2R30やTAS2R31やTAS2R43やTAS2R46やTAS2R50)、フラニ人では成長ホルモン受容体結合(たとえば、GH1やGH2やCSH1やCSH2やCSHL1)と関わる経路で濃縮されています。


●考察

 本論文は、アフリカ人に関する先行研究でよりもアフリカにおける文化と言語と表現型と遺伝子の多様性を広範囲に表している、12のアフリカ先住民人口集団の180個体から得られた高網羅率のWGSデータが分析されました。本論文は530万の以前には未報告の多様体を同定し、その多くは機能的と予測されます。さらに、ClinVarデータベースで定義されている、「病原性」もしくは「病原性の可能性が高い」154のSNPのうち44は、本論文で対象とされた1つもしくは複数の人口集団において一般的ですが(頻度が0.05超)、非アフリカ系人口集団では稀です(頻度が0.01未満)。

 これらの結果から、アフリカの人口集団は病原性多様体を高頻度では有している、とは示唆されないものの、多様体の低い割合が現在の臨床研究では病原性決定の要因であり、非アフリカ系人口集団への偏りが病原性多様体の誤分類をもたらしているかもしれない、ということを反映している可能性は高そうです。これらの観察は、ヒトの遺伝学的研究において、民族的に多様な人口集団を含むことと、偏らない遺伝子型決定(たとえば、アフリカ人祖先系統の標本で設計されたSNP配列)の開発の重要性を強調します。以下は本論文の要約図です。
画像

 この研究はアフリカの人口集団の複座な人口史を描写しており、古代の人口分岐と地域的および大陸間の移動と混合事象から構成されます(図3および図4B・C・D)。系統発生分析から、サン人は全ての他の現代人の祖先人口集団の子孫だと示唆されますが、人口集団間有効人口規模と移住の変化を認めるmomiを用いての人口統計学的モデル化は一貫して、RHGとサン人が、全ての他の現代の人口集団の祖先人口集団に由来する姉妹クレードを形成する、というモデルを裏づけます。20万~5万年前頃のサン人とRHGの類似の有効人口規模が明らかになり(図5)、これは共有される共通の祖先系統と一致します。同様に、ADMIXTUREはサン人とRHGとの間の共有される祖先系統を、とくに低いK値で特定します。一方qpgraphでは、RHGとバントゥー諸語話者人口集団は、その祖先系統のかなりの割合が、全ての現代の人口集団の外群である人口集団に由来する(図4B)、と示唆されます。

 これらの観察を説明する一つの可能性は、全ての現代人の祖先およびより最近のRHGとバントゥー諸語話者人口集団の祖先を有する深く分岐した人口集団間の複数回の混合事象を伴うモデルで、アフリカの人口集団における古代の遺伝子移入を報告した先行研究(関連記事)と一致します。しかし、これらの結果は、現代のアフリカの人口集団と関連する系統が深く構造化した祖先人口集団の一部だった場合でも説明できます。こりは、アフリカにおける現生人類の起源の「多地域」モデルで、構造化された人口集団間の遺伝子流動により促進されたかもしれません。アフリカの古代型人類【絶滅ホモ属、非現生人類ホモ属】からの古代DNAの配列決定が、非アフリカ系現代人におけるネアンデルタール人や種区分未定のホモ属であるデニソワ人(Denisovan)の事例(関連記事)のように、非アフリカ系人口集団アフリカにおける古代の混合のより直接的な証拠を提供できるかもしれません。

 したがって、現生人類につながる系統の初期の人口史は複雑で、現生人類系統間および恐らくは他の人類系統との遺伝子流動の複数回の事象があったでしょう。遺伝子流動について説明するさいに、現代人の間の最も深い分岐は285000年前頃にさかのぼる、と本論文は推定し、これはアフリカの古代人標本(関連記事1および関連記事2)およびアフリカの化石記録(関連記事)に基づく推定と一致します。しかし、遺伝子流動を考慮しなければ、MSMCから得られた本論文の推定は、ずっと新しくなるものの(15万~10万年前頃)、それでもかなり深い分岐です。アフリカの全ての主要な語族の言語を話す人口集団が数万年前に分岐したことも示され、さまざまな語族の言語を話す人口集団間および人口集団内での長期の人口構造と一致します(関連記事1および関連記事2)。

 アフリカ人の言語は非常に多様で、コイサン諸語への分類は議論になっていますが、qpgraphとTreeMixとmomiは、現在地理的に孤立しているコイサン諸語狩猟採集民人口集団である、アフリカ東部のハッザ人およびサンダウェ人と、アフリカ南部に現在居住するジュホアン人およびクー人との間の、過去12000年以内の古代の遺伝子流動の兆候を特定しました。現代人と古代人の標本から得られたミトコンドリアDNA(mtDNA)と常染色体のデータに基づく証拠(関連記事)から、現在のサン人はアフリカ東部に起源があるかもしれず、その後でアフリカ南部に移住したので、アフリカにおけるコイサン諸語話者人口集団はより広範に分布するようになったかもしれない、と示唆されます。したがって、長期にわたって、アフリカ東部と南部ではコイサン諸語話者人口集団間の継続的な遺伝子流動があったかもしれません。

 さらに、ニジェール・コンゴ語族話者関連祖先系統はアフリカ西部および中央部のニジェール・コンゴ語族話者人口集団(たとえば、ティカール人)において最高であるものの、ボツワナのヘレロ人ではわずかに低い、と観察され、過去5000年以内のアフリカ西部および中央部におけるバントゥー諸語話者人口集団の起源と、過去1000年のアフリカ南部へのヘレロ人のより最近の移住と、その後のクー人などコイサン諸語話者人口集団との混合を反映しています。サンダウェ人とクー人でもバントゥー諸語話者関連祖先系統が観察されており、バントゥー諸語話者がアフリカ全域へと拡大するにつれて、在来の人口集団と混合したことを反映しています。言語学および考古学的記録と一致して、現在のスーダン/エチオピアから南方のケニアおよびタンザニアへの、ナイル・サハラ語族話者人口集団とアフロ・アジア語族話者人口集団の移住と遺伝子流動の証拠が観察されました(図3)。

 在来の先住狩猟採集民人口集団は、同化されるか過酷な生息地への移動を強制され、ハッザ人とチャブ人における有効人口規模の大幅な減少につながりましたが、サンダウェ人は異なり、近隣のクシ(Cushitic)語派およびバントゥー諸語話者人口集団と同化し、高水準の遺伝子流動と農耕牧畜の採用と人口増加がもたらされました。フラニ人とヘレロ人における有効人口規模の現象も観察され、フラニ人についてはmtDNA標識に基づく研究と一致します。ドイツの植民地期の兵士は、過去100年でナミビアのヘレロ人をほぼ絶滅させ、これがヘレロ人集団におけるボトルネック(瓶首効果)を説明できそうです。

 アフリカの人口集団全体で、多様な環境と食性と病原体への表現型および生理学的適応に役割を果たすかもしれない遺伝子座が同定されました。これらの遺伝子座の一部は、よりと私的な環境に暮らしている現在の人口集団では疾患感受性に影響を及ぼすかもしれません。生体外と計算上のデータを組み合わせると、i-SNPの1つ(rs77665059)が、PDPK1遺伝子の発現調節によりサン人の薄い肌の色に役割を果たしているかもしれない、と示され、これは赤道から比較的遠くに暮らしているサン人集団において適応的かもしれません。

 複数の「オミックス」データと生体外および計算上技術の進歩に基づく世界規模の人口集団の継続中の深い表現型決定で、より多くの人口集団における適応的多様体の機能が将来特徴づけられるだろう、と予測されます。民族的な多様な人口集団において頻度が異なる遺伝的多様体の同定は、とくに、差異が強く祖先系統と相関し、GWASが小さな標本規模および/もしくは特定の人口集団において固定に近い多様体のため検出力を制約しているかもしれないような事例では、機能的に重要な差異を特定するためのGWASの補完的手法です。


●この研究の限界

 単純な人口史しかモデル化できないのに、実際の人口史はずっと複雑である可能性が高そうなので、アフリカの人口史の推測にはまだいくつかの曖昧さがあります。さらに、1人口集団あたり15個体の標本を考えると、選択下の全ての遺伝子座を検出するには能力不足かもしれません。さらに、いくつかの稀ではあるものの機能的に重要なSNPや、アフリカ西部および北部などこの研究で充分には表されていない複数地域の人口集団に固有かもしれないSNPが見落とされているかもしれません。アフリカの複雑な進化史の理解を深めるには、より効率的な計算法を開発し、広範な地理的地域と時間規模でより多くの先住人口集団と古代人標本を含め、ゲノムデータを古生物学や考古学や言語学のデータと統合しなければなりません。構造的多様体を解明するための長い読み取りの配列決定など、追加のゲノムデータ様式が、SNPを超えた遺伝的差異の追加の形態と、小さな挿入および欠失を明らかにできるかもしれません。


参考文献:
Fan S. et al.(2023): Whole-genome sequencing reveals a complex African population demographic history and signatures of local adaptation. Cell, 186, 5, 923–939.E14.
https://doi.org/10.1016/j.cell.2023.01.042

この記事へのコメント