インドの人口史
大規模なゲノムデータに基づいてインドの人口史を検証した研究(Kerdoncuff et al., 2025)が公表されました。[]は本論文の参考文献の番号で、当ブログで過去に取り上げた研究のみを掲載しています。本論文は、インドの現代人の高品質なゲノムデータと古代人のゲノムデータを用いて、ネアンデルタール人(Homo neanderthalensis)および種区分未定のホモ属であるデニソワ人(Denisovan)からの遺伝子移入も含めて、過去5万年間のインド人の遺伝的歴史を検証しています。インドは現生人類(Homo sapiens)の拡散において重要な役割を果たしたと思われるので、その点でも注目されます。
現代のインド人のゲノムはほぼ、アフリカからの1回の主要な現生人類の拡散に起源があり、おもに3系統の構成要素に由来すると示され、それは、現代人ではオンゲ人に近いまだDNAが解析されていないアジア南部の狩猟採集民的な遺伝的祖先系統(祖先系譜、祖先成分、祖先構成、ancestry)と、イランおよびアジア中央部の文化と関連する新石器時代農耕民的な祖先系統と、ユーラシア草原地帯牧畜民的な祖先系統です。さらに、現代インド人におけるネアンデルタール人および種区分未定のホモ属であるデニソワ人からの遺伝子移入も改めて示され、現代インド人は世界で最も多様なネアンデルタール人由来の祖先系統を有していることも明らかになりました。こうした知見は、「実用的」観点では、インドの医療や公衆衛生にも役立つでしょう。以下は本論文の要約図です。
以下の略称は、SNV(Single Nucleotide Variant、一塩基多様体)、Mb(megabase、百万塩基対)、kb(kilo base、千塩基対)、SNP(Single Nucleotide Polymorphism、一塩基多型)、PCA(principal component analysis、主成分分析)、DAV(derived archaic variant、派生的古代型多様体)、IBD(identity-by-descent、同祖対立遺伝子)、HBD(Homozygosity-By-Descent、同型接合性)、cM(centimorgan、センチモルガン)、SSU(secondary sampling unit、二次標本抽出単位)、CI(confidence interval、信頼区間)、ALDER(admixture-induced linkage disequilibrium for evolutionary relationships、進化的関係の混合により誘発される連鎖不平衡)、pLoF(putative loss of function、機能の推定喪失)、GO(gene ontology、遺伝子オントロジー)、1000G(1000 Genomes Project、1000人ゲノム計画)、UKB(United Kingdom Biobank、イギリス生物銀行)、SGDP(Simons Genome Diversity Panel、サイモンズゲノム多様性パネル)、HGDP(Human Genome Diversity Pane、ヒトゲノム多様性パネル)、TopMed(Trans-Omics for Precision Medicine、精密医療のトランスオミクス)、LASI-DAD(Longitudinal Aging Study in India-Diagnostic Assessment of Dementia、認知症のインド診断評価における経度アジア研究)、gnomAD(Genome Aggregation Database、ゲノム集合データベース)、GCAD(Genome Center for Alzheimer’s Disease、アルツハイマー病ゲノム研究所)、MHC(major histocompatibility complex、主要組織適合複合体)、PBS(Population Branch Statistics、人口集団分枝統計)、SARS-CoV-2(severe acute respiratory syndrome coronavirus 2、重症急性呼吸器症候群コロナウイルス2)、AD(Alzheimer’s disease、アルツハイマー病)です。
時代区分の略称は、N(Neolithic、新石器時代)、EN(Early Neolithic、前期新石器時代)、CA(Copper Age、銅器時代)、BA(Bronze Age、青銅器時代)、MBA(Middle Bronze Age、中期青銅器時代)、MLBA(Middle to Late Bronze Age、中期~後期青銅器時代)、LBA(Late Bronze Age、後期青銅器時代)です。本論文で取り上げられる主要なインドの地域は、オリッサ州(Odisha)、西ベンガル州(West Bengal)、グジャラート州(Gujarat)、アッサム州(Assam)、アーンドラ・プラデーシュ州(Andhra Pradesh)、テランガーナ州(Telangana)、マクラン(Makran)地方です。
本論文で取り上げられる主要な人類集団は、ST(Scheduled Tribes、指定部族)、SC(Scheduled Castes、指定カースト、不可触民)、OBC(Other Backward Class、後進諸階層)、AHG(Andamanese hunter-gatherer、アンダマン諸島狩猟採集民)、ANI(Ancestral North Indian、祖先的北インド人)、ASI(Ancestral South Indian、祖先的南インド人)、AASI(Ancient Ancestral South Indian、古代祖先的南インド人)、ニコバル人(Nicobarese)、ESN(Esan in Nigeria、ナイジェリアのエサン人)、GWD(Gambian from Mandinka、マンディンカのガンビア人)です。
本論文で取り上げられる主要な文化は、BMAC(Bactrio Margian Archaeological Complex、バクトリア・マルギアナ考古学複合)、シャハリ・ソフター(Shahr-i-Sokhta)文化、ヤムナヤ(Yamnaya)文化です。本論文で取り上げられる主要な遺跡は、インドではマクラン地方のシャヒ・タンプ(Shahi-Tump)遺跡とグジャラート州のスールコータダー(Surkotada)遺跡、パキスタンではメヘルガル(Mehrgarh)遺跡、トルクメニスタンではナマズガ(Namazga)遺跡とパルハイ(Parkhai)遺跡とテペ・アナウ(Tepe Anau)遺跡、タジキスタンではサラズム(Sarazm)遺跡、クロアチアではヴィンディヤ洞窟(Vindija Cave)です。
本論文で取り上げられる主要な遺伝子は、MUC(Mucin)、HBB(hemoglobin subunit beta、ヘモグロビン亜単位β)、GJB2(gap junction protein, beta 2、間隙接合タンパク質β2)、CFTR(cystic fibrosis transmembrane conductance regulator、嚢胞性線維症膜貫通電気伝導度制御因子)、PAH(pulmonary arterial hypertension、肺動脈性肺高血圧症)、BCHE(butyrylcholinesterase、ブチリルコリンエステラーゼ)、BTNL2(Butyrophilin Like 2、ブチロフィリン様2型)、FBP2(fructose-bisphosphatase 2、果糖ジホスファターゼ2)、FYCO1(FYVE and coiled-coil domain containing 1、FYVE渦巻状ドメイン含有1)、PCAT7(Prostate Cancer Associated Transcript 7、前立腺癌関連転写因子7)、CXCR6(C-X-C chemokine receptor type 6、C-X-C炎症性細胞遊走因子受容体6型)、WDFY2(WD Repeat And FYVE Domain Containing 2、WD反復FYVEドメイン含有2)、CHD1L(chromodomain helicase DNA binding protein 1-like、クロモドメインヘリカーゼDNA結合タンパク質1様)、HELZ2(Helicase With Zinc Finger 2、亜鉛小片ヘリカーゼ2)、LINC00708(Long Intergenic Non-Protein Coding RNA 708、長遺伝子間非タンパク質コードRNA708)、CDKN2B(Cyclin Dependent Kinase Inhibitor 2B、サイクリン依存リン酸化酵素反応抑制2B)、EPAS1(Endothelial PAS Domain Protein 1、内皮PASドメインタンパク質1)、TRIM(tripartite motif、三者間様)、APOE(apolipoprotein E、アポリポタンパク質E)、FOXP2(Forkhead Box P2、フォークヘッドボックスP2)です。なお、当ブログでは原則として「文明」という用語を使いませんが、以下の翻訳では本論文の「civilization」を「文明」と訳します。
●用語集
○AASI
古代祖先的南インド人は、南インド人のアジア南部で最も古い系統の一つである、在来の標本抽出されていないアジア南部人口集団を表します。
○ASI
祖先的南インド人は、AASIおよび古代イラン農耕民と関連する祖先系統を有している、仮定的集団を表します。
○ANI
祖先的北インド人は、ASIおよび草原地帯中央_MLBAと関連するユーラシア草原地帯牧畜民と関連する祖先系統を有している、仮定的集団を表します。
○AHG
AHGは、標本抽出されていないアジア南部人と関連している、現在のアンダマン諸島先住民であるオンゲ人を指します。
○インダス周縁部勾配
インダス周縁部勾配は、青銅器時代のシャハリ・ソフター文化およびBMACの11点の外れ値標本の異質な集団で、先行研究[30]において、イラン農耕民関連祖先系統とAHG関連祖先系統を有している、と示されました。インダス周縁部西部(I8726)は、インダス周縁部勾配において最高の割合のイラン農耕民関連祖先系統を有している単一個体で、年代は紀元前3100~紀元前3000年頃です。
○草原地帯中央_MLBA
中期~後期青銅器時代の草原地帯中央部の個体群(34個体)は、アジア南部におけるヤムナヤ文化草原地帯牧畜民由来の祖先系統の供給源と考えられており[30]、年代は紀元前2000~紀元前900年頃です。
○サラズム_EN
タジキスタンのサラズム遺跡の紀元前四千年紀の農耕民および牧畜民で(2個体)、年代は紀元前3600~紀元前3500年頃です。
○パルハイ_アナウ_EN
トルクメニスタンのテペ・アナウ遺跡とパルハイ遺跡の金石併用時代個体群(9個体)で、年代は紀元前3500~紀元前2900年頃です。
○ナマズガ_CA
トルクメニスタンのナマズガ遺跡の銅器時代個体群(2個体)で、年代は紀元前3300~紀元前3200年頃です。
●要約
インドはゲノム調査において過小評価されてきました。インドの2762個体から全ゲノム配列が生成され、ほとんどの地理的地域と言語集団と歴史的に過小評価されてきた共同体にわたる遺伝的多様性が把握されました。ほとんどのインド人はおもに3祖先集団からの祖先系統を有している、と分かり、それは、アジア南部狩猟採集民、ユーラシア草原地帯牧畜民、イランおよびアジア中央部の文化と関連する新石器時代農耕民です。個体間の広範な同型接合性とIBD共有は、近親婚への最近の移行に起因する強い創始者効果を反映しています。インド人の遺伝的差異のほとんどは5万年前頃に起きたアフリカからの単一の主要な移動に由来し、ネアンデルタール人およびデニソワ人からの1~2%の遺伝子流動が続いた、と明らかになります。注目すべきことに、インド人は世界中の集団の中で、人口集団固有のネアンデルタール人祖先系統断片の、最大の差異を示し、最も多い量を有しています。最後に、この複雑な進化史がこの亜大陸【アジア南部、インド】において機能的および疾患の差異をどのように形成してきたのか、考察されます。
●研究史
14億人以上の人々と、約5000の人類学的によく定義された民族言語および宗教共同体があるインドは、並外れた多様性の地域です。しかし、インドの人口集団はゲノム研究では依然として過小評価されています。1000GやUKB[3]やTopMedやSGDP[5]やHGDP[6]やGenomeAsia[7]などの最近の配列決定は、インドの人口集団を組み込んできました。しかし、GenomeAsia[7]を除いて、これらの試みにはインドのごく少数の個体か、おもにインド国外で標本抽出された共同体が含まれており、インドで見られる遺伝的差異の限られた(および偏っている)代表につながりました。結果として、インドの人口史について多くの未解決の問題が依然として回答されておらず、人々は最初にアフリカからインドへと、出アフリカの主要な移動の一部として移動しましたか、あるいはそれ以前に南方沿岸の移動経路に沿って移動しましたか[9、10]?古代型人類【絶滅ホモ属、非現生人類ホモ属】であるネアンデルタール人やデニソワ人からの遺伝子流動の寄与と遺産は、インドの人口集団にとってどのようなものですか?新石器時代の農耕のような最近の技術的革新や言語の拡大は、インドにおいて遺伝的差異と疾患にどのように影響を及ぼしましたか?
人口史、つまり過去の移動や人口ボトルネック(瓶首効果)や混合事象の理解は、人口集団の起源の追跡に有益で、効果的な疾患の対応付けの基礎となります。最近の研究では、人口構造の不適切な考慮はゲノム規模関連研究において偽陽性につながるかもしれない、と示されてきました。逆に、人口史の活用は真の関連づけの検出力を強化し、経時的な疾患を引き起こす多様体の起源と動態に知見を提供します。たとえば、古代型集団からの遺伝子流動は、ヒトの適応と適応度に大きな影響を及ぼしてきており、高地適応から糖尿病および感染症の危険性まで多くの部位に影響を与えました[15~17]。したがって、人口史の包括的な理解は効率的な疾患の対応付けにおいて不可欠の第一段階です。
インドにおける遺伝的多様性の詳細な全体像を得るために、2762個体の深い網羅率のゲノム配列が生成されました。このデータは、60歳以上の個体の人口集団に基づく予測ゲノムコホート(特定の性質が一致する個体で構成される集団)研究である、LASI-DADの一部です。LASI-DADはインド全域の18州および連邦直轄領の個体群の全国的に代表的なデータで構成されており(図1A)、州あたりの標本規模の中央値は157個体です。LASI-DADには多様な地理的地域(農村部と都市部など)やさまざまな語族の話者(たとえば、インド・ヨーロッパ語族やドラヴィダ語族やチベット・ビルマ語派)や歴史的に過小評価されていた共同体(たとえば、STやSCやOBC)が含まれており、インドにおける遺伝的差異の最も包括的な概観を提供します。以下は本論文の図1です。
●遺伝的多様体のデータと目録
22組の両親と子供を含めて合計2762人のLASI-DAD参加者は、インドのベンガルール(Bangalore)の医療ゲノム(MedGenome)社において平均読み取り深度30倍で配列決定されました。生の全ゲノム配列は、共同呼び出しと品質管理のためペンシルバニア大学のGCADに送られました。合計2769個体と7320万ヶ所の常染色体の両アレル(対立遺伝子)多様体が品質管理選別に合格し、6710万ヶ所のSNVと604万ヶ所の挿入欠失(インデル)が含まれます。1000GやgnomADなど既存のヒトゲノム差異データベースに存在しない2400万ヶ所のSNVと220万ヶ所のインデルが特定され[19]、多様な人口集団を表す上でのデータベースの限界が浮き彫りになります。これらの多様体の大半(99%超)は稀(頻度1%未満)で、68%のシングルトン(singleton、対象集団内の1点の標本でしか観測されていない変異)イが含まれます。ゲノム位相化はSHAPEIT4を用いて(参照パネルなしで)行なわれ、両親と子供における位相変換誤差率は1.13%未満と推定されました。
本論文のデータセットは、インドにおける人口多様性を表しています。本論文のデータセットには、農村部(63%)から都市部(37%)まで、23の州および連邦直轄領が含まれています。本論文のデータセットは、約26の言語の話者で構成されており、インド・ヨーロッパ語族話者と報告された個体が74%、ドラヴィダ語族話者と報告された個体が25%を占めています。本論文のデータセットは、部族(STが4%)およびカースト(SCが18%、OBCが44%)集団を含めて、多様な共同体の個体群で構成されています。ほぼ同数の男女が募集され、本論文のデータセット52%の女性で構成されています。多くの分析について、出生地に基づいて6ヶ所の主要な地理的地域に分類され、それは、北部(555個体)と西部(385個体)と中央部(373個体)と南部(715個体)と北東部(73個体と)東部(530個体)です。品質管理検査の実行と1親等の親族の除外後に、とくに明記しない場合には、以下で述べる分析のほとんどについて2620個体の標本が用いられます。
●人口構造と混合
他の世界中の人口集団とのインド人の人口集団の関係を調べるために、LASI-DADが1000GおよびHGDP6データセットと組み合わされ、PCAおよびADMIXTUREが実行されました。以前の報告と一致して、インドの人口構造はユーラシア西部関連(1000Gユーラシア)およびアジア東部関連(1000Gアジア東部)祖先系統と関連している、と分かりました(図1B)。HGDPのアジア中央部人および中東人を含めた場合、定性的に同様の結果が得られ、PCAで観察されたパターンはヨーロッパとの関連性のみではなくユーラシア西部との関連性を反映している、と浮き彫りになります。おもにインドの孤立した族内婚共同体を標本抽出した先行研究とは異なり、地図の碁盤目もしくは人口密度に基づく標本抽出手法が用いられました。注目すべきことに、主成分1(PC1)と主成分2(PC2)に沿って、より連続的な差異が観察されました。PCAには主要な3クラスタ(まとまり)があり、その一つは、ユーラシア西部人とのさまざまな関連性を示すインドの南北の個体の大半が含まれ、「インド勾配」と呼ばれます(図1B)。インド勾配は以前には、2祖先集団からの祖先系統さまざまな割合を反映している、と示されており、それは、ユーラシア西部人と関連する祖先系統を高い割合で有するANIと、ユーラシア西部人とはわずかにしか関連していないASIです。最近の古代DNA解析では、アンダマン諸島の狩猟採集民(AHG)と遠い関係の(標本抽出されていない)アジア南部先住民(AASI)が、古代五銭農耕民と混合してASIを形成し、次にASIがユーラシア草原地帯牧畜民と混合してANIを形成した、と示されてきました。したがってASIとANIは混合集団(用語集)です[30]。
インド勾配を越えて、個体群(494個体)の主要な2クラスタが見つかり、一方はインド勾配のASI端に近いクラスタで、もう一方のクラスタはインド勾配の中心から離れているものの、アジア東部関連集団(1000Gアジア東部)との明らかな関連性を示しています(図1B)。前者にはおもにインド中央部および東部の個体群が含まれ、大半はおもにインド・ヨーロッパ語族およびオーストロアジア語族が話されているオリッサ州の個体です。第二【後者】のクラスタには、インドの東部および北東部地域の個体群が含まれます。西ベンガル州はこのクラスタにおける最も代表的な州で、個体群の祖先系統の約5%はアジア東部人関連に由来します。ALDERを用いての混合関連連鎖不平衡の測定によって、アジア東部関連の遺伝子流動は50世代前もしくは520年頃に起きた、と推測され、これはバングラデシュの個体群に関する先行研究と一致します。この時期はグプタ帝国の崩壊と一致しますが、一部の混合はアジア東部からの稲作の拡大に伴ってそれ以前にも起きていたかもしれません。アジア東部関連クラスタには、チベット・ビルマ語派を話すアッサム州の個体群も含まれます。PCAはこの集団の個体間のアジア東部との関連性における顕著な異質性を示しており、最近の遺伝子流動が示唆されます(図1B)。本論文のADMIXTURE分析は、PCAで観察されたパターンを反映しています。
インドにおける祖先系統をモデル化するために、対象の1人口集団と参照および外群人口集団の一式との間のアレル(対立遺伝子)頻度相関を比較する、qpAdmが用いられました[35]。まず、古代イラン農耕民関連集団とユーラシア草原地帯牧畜民関連集団とAHG 関連集団での3方向モデルがインド勾配上の個体群の遺伝的差異(図1B)をどのように適切に説明するのか、調べられました。先行研究[30]に従って、イラン農耕民関連祖先系統の代理としての、青銅器時代のシャハリ・ソフター文化およびBMACの11点の外れ値標本の異質な集団であるインダス周縁部勾配の一部となるインダス周縁部西部、草原地帯牧畜民関連祖先系統の供給源としてのアジア中央部の中期~後期青銅器時代個体群(草原地帯中央_MLBA)、AASI祖先系統を表すAHG関連個体群が用いられました(用語集)。3方向モデルはインド勾配上の個体群の大半(90%超)について良好な適合(qpAdmのp値が0.01超のモデルとして定義されます)を提供し、一部例外がある、と分かりました。注目すべきことに、草原地帯牧畜民関連祖先系統のない、イラン農耕民関連祖先系統とAHG関連祖先系統との間の2方向混合として適合できる22個体が見つかりました。イラン関連祖先系統が、アジア中央部の初期新石器時代および銅器時代個体群、つまりタジキスタンの紀元前四千年紀の農耕民および牧畜民(紀元前3600~紀元前3500年頃のサラズム_EN)、もしくはサ以前にインダス周縁部勾配の供給源として示唆された[30]サラズム_ENとパルハイ_アナウ_EN(紀元前3500~紀元前2900年頃、トルクメニスタン)の組み合わせはに由来する場合には、ASIの22個体すべてで良好な適合が得られます。インド勾配上の個体(2126個体)については、サラズム_ENでのモデルが大半の個体(95%超)で最良の適合を提供します(AHG関連および草原地帯中央_MLBAでの3方向モデルのP値は0.01超)。対照的に、ナマズガ_CAとパルハイ_アナウ_ENでは、個体のかなりの割合(15%超)で失敗するか負の係数が得られます。
インド勾配外の個体群(494個体)については、サラズム_EN関連祖先系統とAHG関連祖先系統と(a)草原地帯牧畜民関連祖先系統(インド勾配として)もしくは(b)オーストロアジア語族話者(ニコバル人を使用)関連祖先系統もしくは(c)アジア東部(漢人を使用)関連祖先系統のいずれかを含む3モデルが試みられました。モデル(bおよびc)が失敗した場合には、草原地帯牧畜民関連祖先系統の追加によって4方向モデルも検証されました。494個体の91%について、良好な適合が得られました。これらのうち、91個体は草原地帯牧畜民関連祖先系統なしでモデル化でき、オーストロアジア語族関連クラスタのほぼすべての個体(約96%)が含まれます。これは、インドのANIとASIとオーストロアジア語族関連個体におけるイラン農耕民祖先系統の(標本抽出された人口集団の中で)最も近い代理が、サラズム_ENであることを示唆しています。じっさい、サラズム_EN個体群のうち1個体には、以前に示唆されたように、いくらかのAHG関連祖先系統の暫定的な証拠があります。AHG関連祖先系統とサラズム_ENと草原地帯中央_MLBAを参照人口集団として用いて、インド勾配上の個体群の祖先系統の割合が推定されました。インド全体で遺伝的組成に顕著な差異が見つかり、AHG関連祖先系統の割合は19~69%の間、サラズム_ENは27~68%の間、草原地帯中央_MLBAは0~45%の間でした。この3祖先系統構成要素のうち、AHG関連における差異はPCAでのANI-ASI勾配と最も強い相関を示します。AHG関連祖先系統の割合は地理(たとえば、インドの南部では最も高く、北部では最も低くなります)や言語(つまり、インド・ヨーロッパ語族話者と比較してドラヴィダ語族話者ではより高くなります)や社会集団(部族集団では他集団と比較して最も高くなります)と顕著に関連していますが、各集団内で大きな差異があります(図1C)。これは、こうした古代の混合事象がインドの遺伝的多様性の形成に影響を及ぼした、と浮き彫りにします。
●創始者効果はインドで同型接合性を増加させます
先行研究では、多くのインド人集団が族内婚(共同体内の結婚)のため強い創始者事象と近親婚(親族間の結婚)の歴史を有している、と示されてきました。そうした事象は遺伝的差異を減少させ、有害な多様体の除去における選択の効果を低下させて、潜性(劣性)疾患の危険性を増加させます。ゲノム水準では、創始者事象は数人の共通祖先からの染色体領域の継承されたIBD共有を増加させます。近親婚の子孫は両親からIBD断片を継承する可能性がより高く、HBDの断片をもたらします。創始者事象は多くの短いHBD断片をもたらしますが、近い過去の近親婚は少ないもののより長いHBD断片をもたらします。
ハプロタイプに基づくIBD検出手法であるhap-IBDを用いて、LASI-DADおよび1000GデータセットにおけるIBDおよびHBD断片とが特定されました。創始者事象と近い過去の近親婚の影響を区別するために、近親婚を示唆する長い断片(8cM超)と、おもに創始者事象を示唆する短い断片(8cM未満)によって、HBD断片が層別化されました。インド人は平均的に、1000Gのアジア東部(約6cM)やユーラシア(約6cM)やアフリカ(約4cM)と比較して、HBD断片のゲノムでの割合がより高くなっています(図2A)。インド内では、南部の個体群がゲノムでのHBD断片の合計量(平均的に、南部では約19cMの他地域と比較して約56cM)と長いHBD断片の割合(南部では8.4%、他地域では4.3%)の両方の観点で、有意により高い割合の同型接合性を有しています。これは、インド南部におけるより高い割合の近親婚を反映しています(図2A)。同型接合性の大半(90%超)は(長いHBD断片ではなく)短いHBD断片に由来しており、同型接合性の起源として、近い過去の近親婚ではなく、歴史的な創始者事象の主要な役割が示唆されます。同様の結果は、長いHBD断片の定義として20cMの閾値を用いても得られます。以下は本論文の図2です。
次に、個体間のゲノム規模IBD共有が調べられました。LASI-DAD内に少なくとも1人の遺伝的親族のいる個体の割合が計算され、この割合が1000Gの世界中の人口集団と比較されました。LASI-DADの個体の約51.0%(地域間で38.4~59.2%)で、3親等のイトコもしくはより密接な関係に相当する予測されるIBD共有(約53cM)の親族が少なくとも1人見つかり、これは1000Gのアフリカにおける17.2%やアジア南部の14.2%やアジア東部の8.8%やユーラシアの8.8%より顕著に高くなります(先行研究では、GWDとESNにおいて個体の約5~10%が1~2親等の親族と特定され、アフリカでより高い近縁性に寄与していることに要注意です)。とくに1000Gのアジア南部と比較してのLASI-DADにおけるより高い割合のIBD共有は、(1)LASI-DADのより大きな標本規模か、あるいは(2)いずれかの研究における個体選択での確認の偏りに起因するかもしれません。次に、これらの仮説のそれぞれが調べられました。LASI-DADと1000Gアジア南部の同じ数(500個体)の個体群のブートストラップ再標本抽出が実行され、3親等のイトコの割合は24.2%(95%CIで19.4~28.6%)に減少したものの、1000Gアジア南部より有意に高かった、と推定されました(図2B)。LASI-DADでは、個体群は層別化された標本抽出体系で募集され、まず、村落おもくし都市の国勢調査区でのSSUが各州内で選択され、その後に各SSU内の個体群の無作為選択が行なわれました。本論文の標本選択手法の影響を制御するために、LASI-DADにおけるさまざまなSSUの個体の組み合わせが比較されました。標本抽出場所と標本規模の制御にも関わらず、1000Gアジア南部と比較してLASI-DADにおいてより高い近縁性が依然として見つかりますが、違いはより緩やかです。この比較は、インドの遺伝的差異を表すための、1000Gの標本抽出(おもにインド亜大陸からの少数の移住集団)の限界を浮き彫りにします。全体的に、LASI-DADの個体は全員、本論文のデータセットでは少なくとも1人の4親等のイトコもしくはそれ以上の親族(IBDが10cM超)がいる、と分かりました。
●インドにおける古代型人類からの遺伝子流動
インド人を含めてほとんどの非アフリカ人は、その祖先系統の約1~2%が古代型人類、つまりネアンデルタール人およびデニソワ人からの遺伝子流動に由来します[5、7]。しかし、インドにおける古代型祖先系統の機能的影響と地域的差異は、依然として不明です。hmmixと呼ばれる参照のない隠れマルコフモデルが、インドの位相化された2679個体に適用されました(標本を最大化するために、両親の子供を除いて、1親等の親族が保持されました)。hmmixは、外群(ここでは、無視できる量の古代型祖先系統を有する、サハラ砂漠以南のアフリカ人490個体が用いられます)では見られない派生的アレルの多様性の比較によって、ゲノム断片を2通りの状態、つまり「現生人類」か「古代型人類」に分類します。インド人における古代型祖先系統を他の世界中の人口集団と比較するために、hmmixが1000Gの2309個体およびHGDPの825個体の位相化されたデータにも適用され、deCODE遺伝学のアイスランド人27566個体についてのhmmixの刊行されている結果が用いられました。断りのない場合には、模擬実験で偽陽性率4%未満に変換される0.8超の事後確率のある、古代型祖先系統断片が保持されました。
インド人は平均して、古代型祖先系統の呼び出し可能なゲノムの102.98Mbもしくは2.02%(95%百分位数の範囲で1.79~2.29%)を有しています。推定される古代型断片を配列決定されたネアンデルタール人およびデニソワ人のゲノム[46~49]と比較することによって、古代型断片に存在する共有DAVの数の測定に基づき、古代型祖先系統の起源が推測されました。その結果、各個体は約1.43%(1.26~1.65%)のネアンデルタール人祖先系統と約0.10%(0.03~0.17%)のデニソワ人祖先系統を有している、と分かりました。インドにおけるネアンデルタール人祖先系統の割合は、ヨーロッパ人(約1.2%)およびアメリカ大陸先住民(約1.3%)と類似していますが、アジア東部人より有意に低くなっています。推定されるデニソワ人祖先系統の割合が最高なのはオセアニア人(約2.0%)ですが、アメリカ大陸先住民とアジア東部人とアジア南部人は同様の量(約0.1%)を有しています。
LASI-DADの個体群から抽出された重複していない古代型祖先系統断片の組み立てによって、遺伝子移入されたネアンデルタール人のゲノム1524Mb、遺伝子移入されたデニソワ人のゲノム591Mbが再構築されました(図3A)。注目すべきことに、全世界の地域の個体群(1000GとHGDPとLASI-DADから)を用いると、遺伝子移入されたネアンデルタール人のゲノム1679Mbが再構築され、これは直接的に配列決定されたネアンデルタール人のゲノムの大きさと類似しています(選別後、約1650Mb)。アジア東部人におけるより高い割合の個体ごとのネアンデルタール人祖先系統にも関わらず、同じ標本規模に制御した後でさえ、アジア東部人よりもインド人の方から多くのネアンデルタール人配列が回収されます。アイスランド人27566個体における古代型祖先系統の最大規模の研究では、遺伝子移入されたネアンデルタール人のゲノム978Mbと遺伝子移入されたデニソワ人のゲノム112Mbが回収されました(より厳格な選別とhmmixにおける0.9超の事後確率を使用[50])。これらより厳密な閾値を用いてさえ、アイスランド人よりもインド人(LASI-DAD)の方から50%超多くのネアンデルタール人祖先系統断片が回収されました(図3A)。世界の全地域を用いると、遺伝子移入されたデニソワ人のゲノム1080Mbが再構築されました。デニソワ人祖先系統の最大量はインド人から回収されますが、これはHGDPにおけるオセアニア人の標本規模(28個体)へと二次標本抽出後には有意ではありません。以下は本論文の図3です。
次に、インド人と1000GおよびHGDPデータセットの他の世界中の人口集団との間で共有されている(つまり、同じゲノム領域で重複している)、古代型配列の量が計算されました。その結果、ネアンデルタール人祖先系統の81.2%が少なくとも世界中の2地域間で共有されており(図3A)、約11.7%(もしくは1679Mbのうち195.9Mb)はインドでのみ見られる、と分かりました。全体的に、世界中のネアンデルタール人配列の約90.8%はインド人で観察されます(補足図1)。1000G(490個体)およびHGDP(28個体)の最小限の標本規模に合わせるために二次標本抽出した後でさえ、ネアンデルタール人祖先系統の最大の割合はインド人に存在する(490個体では84.5%、29個体では57.3%)、と分かりました。さらに、オセアニア人とインド人は、他の世界中の人口集団と共有されていない、かなりの量のデニソワ人祖先系統配列を有しています。デニソワ人配列の約51%(591Mbのうち301.6Mb)はインド人のみで観察され、これは二次標本抽出後でさえ依然として有意です。以下は本論文の補足図1です。
配列決定された古代型ゲノムとの遺伝子移入した古代型人口集団の関係を推測するために、高網羅率のネアンデルタール人3個体[46~48]およびデニソワ人1個体[49]のゲノムへの、各遺伝子移入された断片におけるDAVのSNPの一致率が推定されました。先行研究[52]と同様の手法を用いると、平均的に、遺伝子移入されたネアンデルタール人の断片はDAVの83%を配列決定されたネアンデルタール人3個体のゲノムと共有している(ヴィンディヤ洞窟のネアンデルタール人と最高の共有)、と分かり、インドにおける模試からの遺伝子流動の単一の波との調査結果が再現されました。インドのほとんどの集団のデニソワ人関連祖先系統は、配列決定されたアルタイ山脈のデニソワ人のゲノムとは遠い関係だった単一の人口集団に由来します(共有されるDAVのSNPは46~50%)。インド北東部および南部の個体群におけるデニソワ人関連祖先系統の低い割合は、配列決定されたデニソワ人のゲノムと密接に関連するデニソワ人集団に由来します(共有されるDAVのSNPは平均で84%)。インド北東部の個体群は、デニソワ人祖先系統の2回の波を有している、と以前に示された[52]アジア東部関連集団(図1B)からの最近の祖先系統を有しています。ネアンデルタール人およびデニソワ人祖先系統以外に、インド人における未知の起源からの0.42%(95%百分位数の範囲で0.37~0.48%)の古代型祖先系統が推定されました。この割合は非アフリカ人、全員で同様で、配列決定された古代型ゲノムと遺伝子移入した古代型個体群との間の違いと関連しているかもしれません。したがって、以前の主張に反して、インド人への他の未知の古代型人類からの(少なくとも、他の世界中の人口集団以上の)追加の寄与の明確な証拠はありません。
古代型祖先系統はインドの地域間で異なっており、古代型祖先系統の割合は、インド北東部および東部で最高となり、インド北部で最低となります。最近の遺伝子流動がインドにおける古代型祖先系統の分布をどのように形成してきたのか、調査するために、インドにおける主要な3祖先系統構成要素の関数として、ネアンデルタール人祖先系統とデニソワ人祖先系統との間の関係が調べられました。インド勾配上の個体群(2126個体)に焦点を当てると、AHG関連祖先系統はデニソワ人祖先系統およびネアンデルタール人祖先系統の両方と正に相関する、と分かりました。古代型の1集団のみが現生人類と一致する派生的アレルを有する部位の使用によって、ネアンデルタール人およびデニソワ人起源への古代型祖先系統断片の割り当てについてより厳密な基準を用いると、これらの結果は堅牢です。このパターン、とくにデニソワ人とAHG関連祖先系統との間の相関は、ユーラシア西部関連集団には最小限のデニソワ人祖先系統があることを考えると[54]、意外ではありません。
●インド亜大陸への出アフリカ移動の時期
インドの移住における中心的な問題は、現生人類がアフリカからインド亜大陸に最初に到来した時期です。考古学的証拠は、74000年前頃に起きたトバ(Toba)噴火の前後におけるインドでの居住を示唆しています[51]。しかし、トバ噴火前の集団がインドの現代人の祖先系統に寄与したのかどうか、不明です。サハラ砂漠以南のアフリカ集団からのインド人の分離時期(つまり、出アフリカ移動の時期)を推測するために、hmmixによって推定される発散率が用いられました(「現生人類」の状態について)。理論的には、この媒介変数は1個体がサハラ砂漠以南のアフリカ人からの分岐以降に蓄積した変異の数を反映しています。したがって、所与の変異率について、サハラ砂漠以南のアフリカ人との下限合着(合祖)時期を推測できます。
さらに、インド人の推定合着時期がアジア東部人やヨーロッパ人やアメリカ大陸先住民など他の非アフリカ人集団と同様なのかどうか、(各人口集団のhmmix発散率を用いて)調べられました。人口集団とデータセットにわたって、位相化誤差や3アレル部位の除去を含めて技術的要因が制御され、1%以上のサハラ砂漠以南のアフリカ関連祖先系統の個体が除外されました(これらの各要因が発散率を偏らせるかもしれないため)。1年の1塩基対あたりのヒト変異率を0.45 × 10⁻⁹と仮定すると[55]、インド人とサハラ砂漠以南のアフリカ人との間の下限合着時期は53932年前頃(95%百分位数の範囲で54644~53190年前)と推定されます。HGDPデータセットのヨーロッパ人とアジア東部人とアジア南部人について、定性的に同様の結果が得られます。さらに、模擬実験の実行によって、インド人において観察された発散媒介変数は、74000年前頃起きたそれ以前の1回の移住からの0~3%の祖先系統に由来する差異と一致する、と示されます。本論文の結果から、現在のインド人の祖先系統の大半は5万年前頃に起きたアフリカからの主要な移動事象に由来する、と論証されます。
●疾患および機能的差異への進化史の影響
遺伝子流動や創始者事象や自然選択を含めて人口史は、疾患感受性など遺伝的差異の形成に重要な役割を果たします。インドにおける遺伝的差異への進化史の影響を研究するために、多様体の機能的影響が特徴づけられ、それには、pLoFもしくはミスセンス多様体(アミノ酸が変わるような多様体)など、タンパク質構造を変えるものも含まれます。385985ヶ所のミスセンス多様体およびpLoF多様体が特定されました。各個体は常染色体上に、約10344ヶ所(9911~10761ヶ所の範囲)の派生的なミスセンス多様体と約67ヶ所(46~96ヶ所の範囲)のpLoF多様体を有しており、これは他の世界中の人口集団で観察された推定値と同様です。これらの多様体のほとんど(90%超)は、稀(頻度が1%未満)もしくはシングルトン(singleton、対象集団内の1点の標本でしか観測されていない変異)です(約62%)。ヒトゲノムにおける18451個のタンパク質をコードする常染色体遺伝子(RefSeqデータベース)のうち、遺伝子の89.5%でミスセンス多様体およびpLoFが見つかり(48%でpLoF)、その範囲は1遺伝子あたり1~1265ヶ所の多様体です(1~52ヶ所のpLoF)。pLoF多様体の数が最も多い上位3個の遺伝子はムチン遺伝子で、MUC3AとMUC16とMUC17にはそれぞれ、52ヶ所と42ヶ所と41ヶ所のpLoFがあり、MUC17では同型接合のpLoFが含まれています。ムチン遺伝子の機能には部分的な冗長性があるので、機能喪失多様体への耐性がより大きいかもしれません。
創始者事象の歴史は、フィンランド人やアシュケナージ系ユダヤ人で見られるように、有害な多様体の高い負荷と潜性疾患の危険性増大を予測します。インドの個体群で、同型接合の有害な変異負荷率における差異(同型接合のミスセンスおよびpLoFの合計として測定されます)が調べられました。その結果、より高い割合のAHG関連祖先系統を有する個体群は、他の祖先系統と比較してより大きな同型接合の有害な変異を有する、と分かりました(図4A)。注目すべきことに、同型接合の有害な変異負荷は個体あたりのHBD断片の合計と強く相関しています。つまり、これが示唆しているのは、より高い割合のAHG関連祖先系統を有する個体群におけるより高い変異負荷が、より高いHBDによって引き起こされ、それが最近の創始者事象および近親婚の結果であることです(図4B)。406304ヶ所のミスセンス多様体およびpLoFでは、約40%がgnomADもしくは1000Gに登録されておらず、そうした多様体の大半はひじょうに稀である(0.1%未満)でふある、と分かりました。非シングルトンのミスセンス/ pLoF多様体がClinVarデータベースに存在し、「病原性」もしくは「病原性の可能性が高い」と分類された214ヶ所の多様体が含まれます。ClinVarの病原性多様体の多くは、血液疾患と関連するHBBや、先天性難聴と関連するGJB2や、嚢胞性繊維症と関連するCFTRや、フェニルケトン尿症と出役割を果たすPAHなど、稀な潜性疾患と関連する遺伝子にあります。注目すべきことに、LASI-DADの15個体(0.28%)に存在するものの、アジア南部以外では見られないBCHE遺伝子において、病原性多様体(L307P)が見つかりました。BCHE欠損の患者は、麻酔で一般的に使用される特定の筋肉弛緩薬の使用への反応で、筋肉麻痺の危険性がより高くなります。この多様体はアーンドラ・プラデーシュ州とテランガーナ州に暮らすヴァイシャ共同体の個体群で多く、これはLASI-DADの保因者15人のうち8人がテランガーナ州出身との本論文の観察と一致します。これらの調査結果は、インドにおける疾患負荷減少のための人口集団特有の遺伝的検査の価値を強調します。以下は本論文の図4です。
インドにおける古代型祖先系統の機能的影響を特徴づけるために、古代型祖先系統のゲノム規模の分布が調べられ、「高頻度古代型祖先系統」(個体の古代型祖先系統の頻度がゲノム規模の平均より2標準偏差高い領域として定義されます)の領域が特定されました(図4C)。ネアンデルタール人祖先系統とデニソワ人祖先系統それぞれで、高頻度の1590ヶ所と818ヶ所の候補領域が特定されました。ネアンデルタール人については、FBP2やFYCO1など以前に特定された遺伝子[54、66]が再現され、追加の候補としてPCAT7およびCXCR6が特定されました。GO濃縮分析を実行すると、おもに免疫機能と関連する経路が、ネアンデルタール人祖先系統では14ヶ所、デニソワ人では22ヶ所見つかりました。
次に、現生人類と古代型集団との間で共有されている派生的アレルの数が多い領域を検索し、これはチベット人においてEPAS1とデニソワ人祖先系統で以前に観察された痕跡です[17]。興味深いことに、ゲノムのある領域ではインド人とのみ共有されているデニソワ人由来の多様体が不均衡に増加する、と分かりましたが、同様の増加はネアンデルタール人由来の多様体では見られません。MHCの一部であるBTNL2遺伝子があるこの領域には、13.2kbの領域内に78ヶ所のデニソワ人固有の派生的多様体が含まれています。この領域には、インド人ではひじょうに高い割合(約10%)のデニソワ人祖先系統もあります(99.9百分位数超)。この領域におけるデニソワ人のハプロタイプは長さでまとまっており、55~65kbの短いハプロタイプと、約150kbの長いハプロタイプがあり、それぞれ116.1ヶ所と126.7ヶ所のデニソワ人固有の派生的多様体が含まれています。インド人とデニソワ人との間で共有されている派生的アレルのハプロタイプの長さと数から、この領域は、祖先の系統分類ではなく、デニソワ人もしくはデニソワ人関連集団からの遺伝子流動の産物である可能性が高い、と示唆されます。世界中の人口集団では、これらのデニソワ人ハプロタイプはアジア東部人においても高頻度で存在しますが(約11.8%、99.8百分位数超)、ヨーロッパ人では稀で(約0.4%)、注目すべきことに、オセアニア人には存在しません。MHCには、免疫機能および平衡選択を受ける可能性の高い感染症と関連する、多くの遺伝子が含まれています。じっさい、先行研究[10]はアジア東部人における平衡選択の候補としてBTNL2を特定しました。模擬実験では、強い創始者事象によって生成された遺伝的浮動のみが、古代型祖先系統の頻度を急速に変えることができる(選択がない場合でさえ)、と示されているものの、高頻度の古代型祖先系統の領域は慎重に解釈されるべきです。
インド人に多い(アジア東部人およびヨーロッパ人と比較して)古代型祖先系統領域を特定するために、PBSが計算されました。PBSは、2参照集団から分岐して以降の、1人口集団(インド人)における頻度の増加を測定します。各人口集団について、ゲノム区画全体にわたってネアンデルタール人およびデニソワ人祖先系統の頻度が測定されました。インド人において、ネアンデルタール人祖先系統では約10.7Mb(もしくは235個の遺伝子)の増加が、デニソワ人祖先系統では約5.5Mb(もしくは84個の遺伝子)の増加が特定されました。デニソワ人祖先系統の多い領域には、宿主細胞へのウイルスの侵入(もしくは排出)と関連する細胞過程と関わるいくつかのTRIM遺伝子(TRIM26、TRIM31、TRIM15、TRIM10、TRIM40)など、自然免疫応答と関連する遺伝子が含まれています。最も顕著なネアンデルタール人祖先系統の増加した領域の1ヶ所には、以前にSARS-CoV-2観戦による呼吸不全の危険性増加関連づけられた[16]3番染色体上の遺伝子クラスタ(まとまり)が含まれています(ゲノム規模PBS得点の99.99百分位数でPBSネアンデルタール人が0.118超)。この領域にはネアンデルタール人起源の主要な2ヶ所のハプロタイプがあり、それは49.4kbの中核ハプロタイプと333.8kbの長いハプロタイプです。インド全域で、中核ハプロタイプの頻度の範囲は20.5%(インド北東部)から34.8%(インド東部)の間となります。中核ハプロタイプと長いハプロタイプ両方の頻度は、他地域と比較してインド東部において有意に高くなっています(中核ハプロタイプは34.8%、長いハプロタイプは23.2%)。1Mb超のひじょうに長いハプロタイプ39ヶ所も見つかりました。
現代人における古代型祖先系統が存在しないゲノムの領域も調べられ、これは「古代型砂漠」と呼ばれています[50、54、71、72]。合計87.1Mbにまたがる6ヶ所のネアンデルタール人砂漠が特定され、これには以前に報告された5ヶ所[71]が含まれます(図4C)。インド人において13ヶ所のデニソワ人砂漠も特定され、これには依然に報告されたネアンデルタール人砂漠と重複する2ヶ所が含まれます。インド人におけるデニソワ人祖先系統のゲノム規模での低い割合を考えると、追加の標本抽出によってこれらの砂漠の一部においてデニソワ人祖先系統が明らかになる可能性は高いでしょう。先行研究[54、73]はとくにゲノムの機能的に重要な領域で、遺伝子の近くの古代型祖先系統のより強い枯渇を示してきており、遺伝子移入された多様体は有害で、純化選択によって除去された、と示唆されます。そこで、18451個のタンパク質コード遺伝子全体で古代型祖先系統の頻度が調べられ、遺伝子では、ネアンデルタール人祖先系統は0~36.7%、デニソワ人祖先系統は0~21.9%の範囲で変わる、と分かりました。本論文の手法の解像度の限界内では、多くの遺伝子(約35%)には古代型祖先系統断片が含まれていません。これらの遺伝子にはAPOE遺伝子があり、これには遅発性ADの主要な危険因子であるAPOE ε4多様体が含まれています。しかし、本論文の現時点の標本規模では、これらの結果は有意ではなく、より大きなコホートで再現されるべきです。
●考察
インドは並外れた遺伝的多様性の地域です。本論文は、インドにおける遺伝的差異の最も包括的な調査を行ない、それにはほとんどの地理的地域の個体群や、すべての主要な語族の話者や、部族および歴史的に過小評価されてきた共同体が含まれます。本論文では、インド人の遺伝的差異のほとんどは5万年前頃に起きたアフリカからの単一の主要な移動に由来し、その後でネアンデルタール人およびデニソワ人からの遺伝子流動があった、と示されます。ほとんどのインド人は現在、AHGおよび古代イラン農耕民および草原地帯牧畜民集団と関連する主要な3供給源からの祖先系統を有しています。新石器時代から鉄器時代にかけての古代インド人14集団からのデータの調査によって、インドのASIとANIとオーストロアジア語族話者関連集団とアジア東部関連集団への、タジキスタンの紀元前四千年紀の農耕民および牧畜民(紀元前3600~紀元前3500年頃のサラズム_EN)と関連するイラン農耕民関連祖先系統の共通の起源が明らかになりました。考古学的研究も、サラズム遺跡とアジア南部との間の交易のつながりを報告してきており、それにはメヘルガル考古学的遺跡および初期インダス川流域文明とのつながりが含まれます。じっさい、サラズム_ENの2個体のうち1個体は、マクラン地方のシャヒ・タンプ遺跡やグジャラート州のスールコータダー遺跡など、パキスタンおよびインドの遺跡での発見物と同一の、貝殻製腕輪とともに発見されました。これらの混合に続いて、インドは族内婚への大きな人口統計学的変化を経ており、広範な同型接合性および個体間のIBD共有が生じました。
インド人における高水準の近縁性は注目に値し、約2700人の標本規模で、各個体には少なくとも1人の4親等のイトコもしくはそれ以上の親族(IBD共有の量が10cM超)がいる、と分かりました。さらに、インド人の同型接合性水準は増加しており(平均で、1個体あたり約12~56cMの範囲の領域にわたって)、これはアジア東部人およびヨーロッパ人よりも2~9倍高いことになります。これらの調査結果は、インド人における広範な家族のつながりを浮き彫りにし、これは族内婚など歴史的か文化的か社会的なパターンを反映しています。同型接合性は、有害な多様体の割合と潜性疾患の危険性を増加させます。ミスセンスおよびpLoF多様体の目録が作成され、16万ヶ所以上の多様体が発見されました(以前のゲノム調査では登録されていませんでした)。これらの多様体の多くはClinVarで注釈付けされており、最近の文献で報告されているように、先天性疾患および血液疾患や、代謝疾患および薬物反応や、認知機能低下や認知症など複雑な健康状態と関連しています。注目すべきことに、これらの多様体はインド外では見られず、インド全体において低頻度で存在しますが、BCHE欠損につながる病原性のミスセンス多様体(L307P)の分布によって例証されるように、一部の共同体ではかなり一般的です。そうした多様体の特定と対応付けには、アシュケナージ系ユダヤ人およびフィンランド人の研究で以前に示されたように、疾患原因の理解を深め、疾患負荷を軽減する、大きな可能性があります。
インド人は深い時間尺度では、古代型人類であるネアンデルタール人およびデニソワ人からの1~2%の祖先系統を有しています。インド人は現代人の中で、古代型祖先系統において最大の差異を示します。注目すべきことに、現在の個体群に存在するネアンデルタール人祖先系統の大半はインドで見つかりますが、他の世界中の人口集団はこの差異の部分集合しか保持していません。ネアンデルタール人およびデニソワ人から遺伝子移入された多様体は適応と疾患に寄与している、と分かりました。いくつかの古代型多様体は免疫に役割を果たす遺伝子および経路で濃縮されており、それにはMHCで濃縮されているデニソワ人から継承されたハプロタイプや、自然免疫応答と関連するTRIM族遺伝子や、SARS-CoV-2感染後の重症化の主要な危険因子を有する3番染色体上のネアンデルタール人から継承された遺伝子クラスタが含まれています。この知識の活用によって、とくに自己免疫疾患や感染症など免疫関連要素のある疾患について、インド人集団に適合した新たな治療法の開発に役立つかもしれません。ネアンデルタール人では6ヶ所、デニソワ人では13ヶ所の祖先系統砂漠が特定され、これにはネアンデルタール人とデニソワ人の両方で存在しない4ヶ所の領域が含まれています。興味深いことに、これらの領域の1ヶ所には、ヒトにおける言語発達と関連するFOXP2遺伝子が含まれています[71]。これらの砂漠の機能的研究は、現生人類固有の特徴および疾患に寄与している、以前には特徴づけられていなかった遺伝的多様体を解明できるかもしれません。
まとめると、これらの調査結果は、インドの遺伝的景観の包括的な視界を提供し、深い進化史、人口統計学的変化、インド亜大陸における遺伝的差異への古代型および最近の遺伝子流動の影響を浮き彫りにします。インド人の独特な遺伝的構造は、将来の医療および機能ゲノム研究における、祖先系統と同型接合性の取り込みの重要性を強調しています。
●この研究の限界
この研究では、インドの約2700人から得られた全ゲノム配列が、古代および現在の個体群を含めて、他の世界規模の人口集団と比較されました。これらのデータを用いて、多様な個体群の祖先系統が特徴づけられ、インドにおける遺伝的差異と疾患への人口統計学的歴史の影響が調べられました。本論文の結果は、多様な人口集団と時間尺度の参照個体群の利用可能性に依存しています。たとえば、インドにおけるイラン農耕民関連祖先系統の最も近い代理(標本抽出された個体群の中で)はアジア中央部の文化の紀元前四千年紀の農耕民および牧畜民である、と特定されました。しかし、この地域および時間尺度の遺伝的データはひじょうに少なく、インドおよびアジア中央部からより多くの古代DNAデータが利用可能になるにつれて、これらの分析を再考し、インドにおけるイラン農耕民祖先系統の起源を確認することが重要でしょう。さらに、地域的な祖先系統推定手法を用いての、現代のインド人における狩猟採集民関連祖先系統とイラン農耕民関連祖先系統と草原地帯牧畜民関連祖先系統の特定は、インド亜大陸における環境適応と疾患感受性の起源および動態を明らかにするでしょう。
参考文献:
Kerdoncuff E. et al.(2025): 50,000 years of evolutionary history of India: Impact on health and disease variation. Cell, 188, 13, 3389–3404.E6.
https://doi.org/10.1016/j.cell.2025.04.027
[3]Bycroft C. et al.(2018): The UK Biobank resource with deep phenotyping and genomic data. Nature, 562, 7726, 203–209.
https://doi.org/10.1038/s41586-018-0579-z
関連記事
[5]Mallick S. et al.(2016): The Simons Genome Diversity Project: 300 genomes from 142 diverse populations. Nature, 538, 7624, 201–206.
https://doi.org/10.1038/nature18964
関連記事
[6]Bergström A. et al.(2020): Insights into human genetic variation and population history from 929 diverse genomes. Science, 367, 6484, eaay5012.
https://doi.org/10.1126/science.aay5012
関連記事
[7]GenomeAsia100K Consortium.(2019): The GenomeAsia 100K Project enables genetic discoveries across Asia. Nature, 576, 7785, 106–111.
https://doi.org/10.1038/s41586-019-1793-z
関連記事
[9]Rasmussen M. et al.(2011): An Aboriginal Australian Genome Reveals Separate Human Dispersals into Asia. Science, 334, 6052, 94-98.
https://doi.org/10.1126/science.1211177
関連記事
[10]Pagani L. et al.(2016): Genomic analyses inform on migration events during the peopling of Eurasia. Nature, 538, 7624, 238–242.
https://doi.org/10.1038/nature19792
関連記事
[15]Simonti CN. et al.(2016): The phenotypic legacy of admixture between modern humans and Neandertals. Science, 351, 6274, 737-741.
https://doi.org/10.1126/science.aad2149
関連記事
[16]Zeberg H, and Pääbo S.(2021): A genomic region associated with protection against severe COVID-19 is inherited from Neandertals. PNAS, 118, 9, e2026309118.
https://doi.org/10.1073/pnas.2026309118
関連記事
[17]Huerta-Sánchez E. et al.(2014): Altitude adaptation in Tibetans caused by introgression of Denisovan-like DNA. Nature, 512, 7513, 194–197.
https://doi.org/10.1038/nature13408
関連記事
[19]Karczewski KJ. et al.(2020): The mutational constraint spectrum quantified from variation in 141,456 humans. Nature, 581, 7809, 434–443.
https://doi.org/10.1038/s41586-020-2308-7
関連記事
[30]Narasimhan VM. et al.(2019): The formation of human populations in South and Central Asia. Science, 365, 6457, eaat7487.
https://doi.org/10.1126/science.aat7487
関連記事
[35]Haak W. et al.(2015): Massive migration from the steppe was a source for Indo-European languages in Europe. Nature, 522, 7555, 207–211.
https://doi.org/10.1038/nature14317
関連記事
[41]Ringbauer H, Novembre J, and Steinrücken M.(2021): Parental relatedness through time revealed by runs of homozygosity in ancient DNA. Nature Communications, 12, 5425.
https://doi.org/10.1038/s41467-021-25289-w
関連記事
[46]Prüfer K. et al.(2014): The complete genome sequence of a Neanderthal from the Altai Mountains. Nature, 505, 7481, 43–49.
https://doi.org/10.1038/nature12886
関連記事
[47]Mafessoni F. et al.(2020): A high-coverage Neandertal genome from Chagyrskaya Cave. PNAS, 117, 26, 15132–15136.
https://doi.org/10.1073/pnas.2004944117
関連記事
[48]Prüfer K. et al.(2017): A high-coverage Neandertal genome from Vindija Cave in Croatia. Science, 358, 6363, 655–658.
https://doi.org/10.1126/science.aao1887
関連記事
[49]Meyer M. et al.(2012): A High-Coverage Genome Sequence from an Archaic Denisovan Individual. Science, 338, 6104, 222-226.
https://doi.org/10.1126/science.1224344
関連記事
[50]Skov L. et al.(2020): The nature of Neanderthal introgression revealed by 27,566 Icelandic genomes. Nature, 582, 7810, 78–83.
https://doi.org/10.1038/s41586-020-2225-9
関連記事
[51]Clarkson C. et al.(2020): Human occupation of northern India spans the Toba super-eruption ~74,000 years ago. Nature Communications, 11, 961.
https://doi.org/10.1038/s41467-020-14668-4
関連記事
[52]Browning SR. et al.(2018): Analysis of Human Sequence Data Reveals Two Pulses of Archaic Denisovan Admixture. Cell, 173, 1, 53-61.e9.
https://doi.org/10.1016/j.cell.2018.02.031
関連記事
[54]Sankararaman S. et al.(2014): The genomic landscape of Neanderthal ancestry in present-day humans. Nature, 507, 7492, 354–357.
https://doi.org/10.1038/nature12961
関連記事
[55]Jónsson H. et al.(2017): Parental influence on human germline de novo mutations in 1,548 trios from Iceland. Nature, 549, 7673, 519–522.
https://doi.org/10.1038/nature24018
関連記事
[66]Racimo F. et al.(2017): Signatures of Archaic Adaptive Introgression in Present-Day Human Populations. Molecular Biology and Evolution, 34, 2, 296-317.
https://doi.org/10.1093/molbev/msw216
関連記事
[71]Vernot B. et al.(2016): Excavating Neandertal and Denisovan DNA from the genomes of Melanesian individuals. Science, 352, 6282, 235–239.
https://doi.org/10.1126/science.aad9416
関連記事
[72]Chen L. et al.(2020): Identifying and Interpreting Apparent Neanderthal Ancestry in African Individuals. Cell, 180, 4, 677–687.E16.
https://doi.org/10.1016/j.cell.2020.01.012
関連記事
[73]Juric I, Aeschbacher S, Coop G (2016) The Strength of Selection against Neanderthal Introgression. PLoS Genet 12(11): e1006340.
https://doi.org/10.1371/journal.pgen.1006340
関連記事
現代のインド人のゲノムはほぼ、アフリカからの1回の主要な現生人類の拡散に起源があり、おもに3系統の構成要素に由来すると示され、それは、現代人ではオンゲ人に近いまだDNAが解析されていないアジア南部の狩猟採集民的な遺伝的祖先系統(祖先系譜、祖先成分、祖先構成、ancestry)と、イランおよびアジア中央部の文化と関連する新石器時代農耕民的な祖先系統と、ユーラシア草原地帯牧畜民的な祖先系統です。さらに、現代インド人におけるネアンデルタール人および種区分未定のホモ属であるデニソワ人からの遺伝子移入も改めて示され、現代インド人は世界で最も多様なネアンデルタール人由来の祖先系統を有していることも明らかになりました。こうした知見は、「実用的」観点では、インドの医療や公衆衛生にも役立つでしょう。以下は本論文の要約図です。
以下の略称は、SNV(Single Nucleotide Variant、一塩基多様体)、Mb(megabase、百万塩基対)、kb(kilo base、千塩基対)、SNP(Single Nucleotide Polymorphism、一塩基多型)、PCA(principal component analysis、主成分分析)、DAV(derived archaic variant、派生的古代型多様体)、IBD(identity-by-descent、同祖対立遺伝子)、HBD(Homozygosity-By-Descent、同型接合性)、cM(centimorgan、センチモルガン)、SSU(secondary sampling unit、二次標本抽出単位)、CI(confidence interval、信頼区間)、ALDER(admixture-induced linkage disequilibrium for evolutionary relationships、進化的関係の混合により誘発される連鎖不平衡)、pLoF(putative loss of function、機能の推定喪失)、GO(gene ontology、遺伝子オントロジー)、1000G(1000 Genomes Project、1000人ゲノム計画)、UKB(United Kingdom Biobank、イギリス生物銀行)、SGDP(Simons Genome Diversity Panel、サイモンズゲノム多様性パネル)、HGDP(Human Genome Diversity Pane、ヒトゲノム多様性パネル)、TopMed(Trans-Omics for Precision Medicine、精密医療のトランスオミクス)、LASI-DAD(Longitudinal Aging Study in India-Diagnostic Assessment of Dementia、認知症のインド診断評価における経度アジア研究)、gnomAD(Genome Aggregation Database、ゲノム集合データベース)、GCAD(Genome Center for Alzheimer’s Disease、アルツハイマー病ゲノム研究所)、MHC(major histocompatibility complex、主要組織適合複合体)、PBS(Population Branch Statistics、人口集団分枝統計)、SARS-CoV-2(severe acute respiratory syndrome coronavirus 2、重症急性呼吸器症候群コロナウイルス2)、AD(Alzheimer’s disease、アルツハイマー病)です。
時代区分の略称は、N(Neolithic、新石器時代)、EN(Early Neolithic、前期新石器時代)、CA(Copper Age、銅器時代)、BA(Bronze Age、青銅器時代)、MBA(Middle Bronze Age、中期青銅器時代)、MLBA(Middle to Late Bronze Age、中期~後期青銅器時代)、LBA(Late Bronze Age、後期青銅器時代)です。本論文で取り上げられる主要なインドの地域は、オリッサ州(Odisha)、西ベンガル州(West Bengal)、グジャラート州(Gujarat)、アッサム州(Assam)、アーンドラ・プラデーシュ州(Andhra Pradesh)、テランガーナ州(Telangana)、マクラン(Makran)地方です。
本論文で取り上げられる主要な人類集団は、ST(Scheduled Tribes、指定部族)、SC(Scheduled Castes、指定カースト、不可触民)、OBC(Other Backward Class、後進諸階層)、AHG(Andamanese hunter-gatherer、アンダマン諸島狩猟採集民)、ANI(Ancestral North Indian、祖先的北インド人)、ASI(Ancestral South Indian、祖先的南インド人)、AASI(Ancient Ancestral South Indian、古代祖先的南インド人)、ニコバル人(Nicobarese)、ESN(Esan in Nigeria、ナイジェリアのエサン人)、GWD(Gambian from Mandinka、マンディンカのガンビア人)です。
本論文で取り上げられる主要な文化は、BMAC(Bactrio Margian Archaeological Complex、バクトリア・マルギアナ考古学複合)、シャハリ・ソフター(Shahr-i-Sokhta)文化、ヤムナヤ(Yamnaya)文化です。本論文で取り上げられる主要な遺跡は、インドではマクラン地方のシャヒ・タンプ(Shahi-Tump)遺跡とグジャラート州のスールコータダー(Surkotada)遺跡、パキスタンではメヘルガル(Mehrgarh)遺跡、トルクメニスタンではナマズガ(Namazga)遺跡とパルハイ(Parkhai)遺跡とテペ・アナウ(Tepe Anau)遺跡、タジキスタンではサラズム(Sarazm)遺跡、クロアチアではヴィンディヤ洞窟(Vindija Cave)です。
本論文で取り上げられる主要な遺伝子は、MUC(Mucin)、HBB(hemoglobin subunit beta、ヘモグロビン亜単位β)、GJB2(gap junction protein, beta 2、間隙接合タンパク質β2)、CFTR(cystic fibrosis transmembrane conductance regulator、嚢胞性線維症膜貫通電気伝導度制御因子)、PAH(pulmonary arterial hypertension、肺動脈性肺高血圧症)、BCHE(butyrylcholinesterase、ブチリルコリンエステラーゼ)、BTNL2(Butyrophilin Like 2、ブチロフィリン様2型)、FBP2(fructose-bisphosphatase 2、果糖ジホスファターゼ2)、FYCO1(FYVE and coiled-coil domain containing 1、FYVE渦巻状ドメイン含有1)、PCAT7(Prostate Cancer Associated Transcript 7、前立腺癌関連転写因子7)、CXCR6(C-X-C chemokine receptor type 6、C-X-C炎症性細胞遊走因子受容体6型)、WDFY2(WD Repeat And FYVE Domain Containing 2、WD反復FYVEドメイン含有2)、CHD1L(chromodomain helicase DNA binding protein 1-like、クロモドメインヘリカーゼDNA結合タンパク質1様)、HELZ2(Helicase With Zinc Finger 2、亜鉛小片ヘリカーゼ2)、LINC00708(Long Intergenic Non-Protein Coding RNA 708、長遺伝子間非タンパク質コードRNA708)、CDKN2B(Cyclin Dependent Kinase Inhibitor 2B、サイクリン依存リン酸化酵素反応抑制2B)、EPAS1(Endothelial PAS Domain Protein 1、内皮PASドメインタンパク質1)、TRIM(tripartite motif、三者間様)、APOE(apolipoprotein E、アポリポタンパク質E)、FOXP2(Forkhead Box P2、フォークヘッドボックスP2)です。なお、当ブログでは原則として「文明」という用語を使いませんが、以下の翻訳では本論文の「civilization」を「文明」と訳します。
●用語集
○AASI
古代祖先的南インド人は、南インド人のアジア南部で最も古い系統の一つである、在来の標本抽出されていないアジア南部人口集団を表します。
○ASI
祖先的南インド人は、AASIおよび古代イラン農耕民と関連する祖先系統を有している、仮定的集団を表します。
○ANI
祖先的北インド人は、ASIおよび草原地帯中央_MLBAと関連するユーラシア草原地帯牧畜民と関連する祖先系統を有している、仮定的集団を表します。
○AHG
AHGは、標本抽出されていないアジア南部人と関連している、現在のアンダマン諸島先住民であるオンゲ人を指します。
○インダス周縁部勾配
インダス周縁部勾配は、青銅器時代のシャハリ・ソフター文化およびBMACの11点の外れ値標本の異質な集団で、先行研究[30]において、イラン農耕民関連祖先系統とAHG関連祖先系統を有している、と示されました。インダス周縁部西部(I8726)は、インダス周縁部勾配において最高の割合のイラン農耕民関連祖先系統を有している単一個体で、年代は紀元前3100~紀元前3000年頃です。
○草原地帯中央_MLBA
中期~後期青銅器時代の草原地帯中央部の個体群(34個体)は、アジア南部におけるヤムナヤ文化草原地帯牧畜民由来の祖先系統の供給源と考えられており[30]、年代は紀元前2000~紀元前900年頃です。
○サラズム_EN
タジキスタンのサラズム遺跡の紀元前四千年紀の農耕民および牧畜民で(2個体)、年代は紀元前3600~紀元前3500年頃です。
○パルハイ_アナウ_EN
トルクメニスタンのテペ・アナウ遺跡とパルハイ遺跡の金石併用時代個体群(9個体)で、年代は紀元前3500~紀元前2900年頃です。
○ナマズガ_CA
トルクメニスタンのナマズガ遺跡の銅器時代個体群(2個体)で、年代は紀元前3300~紀元前3200年頃です。
●要約
インドはゲノム調査において過小評価されてきました。インドの2762個体から全ゲノム配列が生成され、ほとんどの地理的地域と言語集団と歴史的に過小評価されてきた共同体にわたる遺伝的多様性が把握されました。ほとんどのインド人はおもに3祖先集団からの祖先系統を有している、と分かり、それは、アジア南部狩猟採集民、ユーラシア草原地帯牧畜民、イランおよびアジア中央部の文化と関連する新石器時代農耕民です。個体間の広範な同型接合性とIBD共有は、近親婚への最近の移行に起因する強い創始者効果を反映しています。インド人の遺伝的差異のほとんどは5万年前頃に起きたアフリカからの単一の主要な移動に由来し、ネアンデルタール人およびデニソワ人からの1~2%の遺伝子流動が続いた、と明らかになります。注目すべきことに、インド人は世界中の集団の中で、人口集団固有のネアンデルタール人祖先系統断片の、最大の差異を示し、最も多い量を有しています。最後に、この複雑な進化史がこの亜大陸【アジア南部、インド】において機能的および疾患の差異をどのように形成してきたのか、考察されます。
●研究史
14億人以上の人々と、約5000の人類学的によく定義された民族言語および宗教共同体があるインドは、並外れた多様性の地域です。しかし、インドの人口集団はゲノム研究では依然として過小評価されています。1000GやUKB[3]やTopMedやSGDP[5]やHGDP[6]やGenomeAsia[7]などの最近の配列決定は、インドの人口集団を組み込んできました。しかし、GenomeAsia[7]を除いて、これらの試みにはインドのごく少数の個体か、おもにインド国外で標本抽出された共同体が含まれており、インドで見られる遺伝的差異の限られた(および偏っている)代表につながりました。結果として、インドの人口史について多くの未解決の問題が依然として回答されておらず、人々は最初にアフリカからインドへと、出アフリカの主要な移動の一部として移動しましたか、あるいはそれ以前に南方沿岸の移動経路に沿って移動しましたか[9、10]?古代型人類【絶滅ホモ属、非現生人類ホモ属】であるネアンデルタール人やデニソワ人からの遺伝子流動の寄与と遺産は、インドの人口集団にとってどのようなものですか?新石器時代の農耕のような最近の技術的革新や言語の拡大は、インドにおいて遺伝的差異と疾患にどのように影響を及ぼしましたか?
人口史、つまり過去の移動や人口ボトルネック(瓶首効果)や混合事象の理解は、人口集団の起源の追跡に有益で、効果的な疾患の対応付けの基礎となります。最近の研究では、人口構造の不適切な考慮はゲノム規模関連研究において偽陽性につながるかもしれない、と示されてきました。逆に、人口史の活用は真の関連づけの検出力を強化し、経時的な疾患を引き起こす多様体の起源と動態に知見を提供します。たとえば、古代型集団からの遺伝子流動は、ヒトの適応と適応度に大きな影響を及ぼしてきており、高地適応から糖尿病および感染症の危険性まで多くの部位に影響を与えました[15~17]。したがって、人口史の包括的な理解は効率的な疾患の対応付けにおいて不可欠の第一段階です。
インドにおける遺伝的多様性の詳細な全体像を得るために、2762個体の深い網羅率のゲノム配列が生成されました。このデータは、60歳以上の個体の人口集団に基づく予測ゲノムコホート(特定の性質が一致する個体で構成される集団)研究である、LASI-DADの一部です。LASI-DADはインド全域の18州および連邦直轄領の個体群の全国的に代表的なデータで構成されており(図1A)、州あたりの標本規模の中央値は157個体です。LASI-DADには多様な地理的地域(農村部と都市部など)やさまざまな語族の話者(たとえば、インド・ヨーロッパ語族やドラヴィダ語族やチベット・ビルマ語派)や歴史的に過小評価されていた共同体(たとえば、STやSCやOBC)が含まれており、インドにおける遺伝的差異の最も包括的な概観を提供します。以下は本論文の図1です。
●遺伝的多様体のデータと目録
22組の両親と子供を含めて合計2762人のLASI-DAD参加者は、インドのベンガルール(Bangalore)の医療ゲノム(MedGenome)社において平均読み取り深度30倍で配列決定されました。生の全ゲノム配列は、共同呼び出しと品質管理のためペンシルバニア大学のGCADに送られました。合計2769個体と7320万ヶ所の常染色体の両アレル(対立遺伝子)多様体が品質管理選別に合格し、6710万ヶ所のSNVと604万ヶ所の挿入欠失(インデル)が含まれます。1000GやgnomADなど既存のヒトゲノム差異データベースに存在しない2400万ヶ所のSNVと220万ヶ所のインデルが特定され[19]、多様な人口集団を表す上でのデータベースの限界が浮き彫りになります。これらの多様体の大半(99%超)は稀(頻度1%未満)で、68%のシングルトン(singleton、対象集団内の1点の標本でしか観測されていない変異)イが含まれます。ゲノム位相化はSHAPEIT4を用いて(参照パネルなしで)行なわれ、両親と子供における位相変換誤差率は1.13%未満と推定されました。
本論文のデータセットは、インドにおける人口多様性を表しています。本論文のデータセットには、農村部(63%)から都市部(37%)まで、23の州および連邦直轄領が含まれています。本論文のデータセットは、約26の言語の話者で構成されており、インド・ヨーロッパ語族話者と報告された個体が74%、ドラヴィダ語族話者と報告された個体が25%を占めています。本論文のデータセットは、部族(STが4%)およびカースト(SCが18%、OBCが44%)集団を含めて、多様な共同体の個体群で構成されています。ほぼ同数の男女が募集され、本論文のデータセット52%の女性で構成されています。多くの分析について、出生地に基づいて6ヶ所の主要な地理的地域に分類され、それは、北部(555個体)と西部(385個体)と中央部(373個体)と南部(715個体)と北東部(73個体と)東部(530個体)です。品質管理検査の実行と1親等の親族の除外後に、とくに明記しない場合には、以下で述べる分析のほとんどについて2620個体の標本が用いられます。
●人口構造と混合
他の世界中の人口集団とのインド人の人口集団の関係を調べるために、LASI-DADが1000GおよびHGDP6データセットと組み合わされ、PCAおよびADMIXTUREが実行されました。以前の報告と一致して、インドの人口構造はユーラシア西部関連(1000Gユーラシア)およびアジア東部関連(1000Gアジア東部)祖先系統と関連している、と分かりました(図1B)。HGDPのアジア中央部人および中東人を含めた場合、定性的に同様の結果が得られ、PCAで観察されたパターンはヨーロッパとの関連性のみではなくユーラシア西部との関連性を反映している、と浮き彫りになります。おもにインドの孤立した族内婚共同体を標本抽出した先行研究とは異なり、地図の碁盤目もしくは人口密度に基づく標本抽出手法が用いられました。注目すべきことに、主成分1(PC1)と主成分2(PC2)に沿って、より連続的な差異が観察されました。PCAには主要な3クラスタ(まとまり)があり、その一つは、ユーラシア西部人とのさまざまな関連性を示すインドの南北の個体の大半が含まれ、「インド勾配」と呼ばれます(図1B)。インド勾配は以前には、2祖先集団からの祖先系統さまざまな割合を反映している、と示されており、それは、ユーラシア西部人と関連する祖先系統を高い割合で有するANIと、ユーラシア西部人とはわずかにしか関連していないASIです。最近の古代DNA解析では、アンダマン諸島の狩猟採集民(AHG)と遠い関係の(標本抽出されていない)アジア南部先住民(AASI)が、古代五銭農耕民と混合してASIを形成し、次にASIがユーラシア草原地帯牧畜民と混合してANIを形成した、と示されてきました。したがってASIとANIは混合集団(用語集)です[30]。
インド勾配を越えて、個体群(494個体)の主要な2クラスタが見つかり、一方はインド勾配のASI端に近いクラスタで、もう一方のクラスタはインド勾配の中心から離れているものの、アジア東部関連集団(1000Gアジア東部)との明らかな関連性を示しています(図1B)。前者にはおもにインド中央部および東部の個体群が含まれ、大半はおもにインド・ヨーロッパ語族およびオーストロアジア語族が話されているオリッサ州の個体です。第二【後者】のクラスタには、インドの東部および北東部地域の個体群が含まれます。西ベンガル州はこのクラスタにおける最も代表的な州で、個体群の祖先系統の約5%はアジア東部人関連に由来します。ALDERを用いての混合関連連鎖不平衡の測定によって、アジア東部関連の遺伝子流動は50世代前もしくは520年頃に起きた、と推測され、これはバングラデシュの個体群に関する先行研究と一致します。この時期はグプタ帝国の崩壊と一致しますが、一部の混合はアジア東部からの稲作の拡大に伴ってそれ以前にも起きていたかもしれません。アジア東部関連クラスタには、チベット・ビルマ語派を話すアッサム州の個体群も含まれます。PCAはこの集団の個体間のアジア東部との関連性における顕著な異質性を示しており、最近の遺伝子流動が示唆されます(図1B)。本論文のADMIXTURE分析は、PCAで観察されたパターンを反映しています。
インドにおける祖先系統をモデル化するために、対象の1人口集団と参照および外群人口集団の一式との間のアレル(対立遺伝子)頻度相関を比較する、qpAdmが用いられました[35]。まず、古代イラン農耕民関連集団とユーラシア草原地帯牧畜民関連集団とAHG 関連集団での3方向モデルがインド勾配上の個体群の遺伝的差異(図1B)をどのように適切に説明するのか、調べられました。先行研究[30]に従って、イラン農耕民関連祖先系統の代理としての、青銅器時代のシャハリ・ソフター文化およびBMACの11点の外れ値標本の異質な集団であるインダス周縁部勾配の一部となるインダス周縁部西部、草原地帯牧畜民関連祖先系統の供給源としてのアジア中央部の中期~後期青銅器時代個体群(草原地帯中央_MLBA)、AASI祖先系統を表すAHG関連個体群が用いられました(用語集)。3方向モデルはインド勾配上の個体群の大半(90%超)について良好な適合(qpAdmのp値が0.01超のモデルとして定義されます)を提供し、一部例外がある、と分かりました。注目すべきことに、草原地帯牧畜民関連祖先系統のない、イラン農耕民関連祖先系統とAHG関連祖先系統との間の2方向混合として適合できる22個体が見つかりました。イラン関連祖先系統が、アジア中央部の初期新石器時代および銅器時代個体群、つまりタジキスタンの紀元前四千年紀の農耕民および牧畜民(紀元前3600~紀元前3500年頃のサラズム_EN)、もしくはサ以前にインダス周縁部勾配の供給源として示唆された[30]サラズム_ENとパルハイ_アナウ_EN(紀元前3500~紀元前2900年頃、トルクメニスタン)の組み合わせはに由来する場合には、ASIの22個体すべてで良好な適合が得られます。インド勾配上の個体(2126個体)については、サラズム_ENでのモデルが大半の個体(95%超)で最良の適合を提供します(AHG関連および草原地帯中央_MLBAでの3方向モデルのP値は0.01超)。対照的に、ナマズガ_CAとパルハイ_アナウ_ENでは、個体のかなりの割合(15%超)で失敗するか負の係数が得られます。
インド勾配外の個体群(494個体)については、サラズム_EN関連祖先系統とAHG関連祖先系統と(a)草原地帯牧畜民関連祖先系統(インド勾配として)もしくは(b)オーストロアジア語族話者(ニコバル人を使用)関連祖先系統もしくは(c)アジア東部(漢人を使用)関連祖先系統のいずれかを含む3モデルが試みられました。モデル(bおよびc)が失敗した場合には、草原地帯牧畜民関連祖先系統の追加によって4方向モデルも検証されました。494個体の91%について、良好な適合が得られました。これらのうち、91個体は草原地帯牧畜民関連祖先系統なしでモデル化でき、オーストロアジア語族関連クラスタのほぼすべての個体(約96%)が含まれます。これは、インドのANIとASIとオーストロアジア語族関連個体におけるイラン農耕民祖先系統の(標本抽出された人口集団の中で)最も近い代理が、サラズム_ENであることを示唆しています。じっさい、サラズム_EN個体群のうち1個体には、以前に示唆されたように、いくらかのAHG関連祖先系統の暫定的な証拠があります。AHG関連祖先系統とサラズム_ENと草原地帯中央_MLBAを参照人口集団として用いて、インド勾配上の個体群の祖先系統の割合が推定されました。インド全体で遺伝的組成に顕著な差異が見つかり、AHG関連祖先系統の割合は19~69%の間、サラズム_ENは27~68%の間、草原地帯中央_MLBAは0~45%の間でした。この3祖先系統構成要素のうち、AHG関連における差異はPCAでのANI-ASI勾配と最も強い相関を示します。AHG関連祖先系統の割合は地理(たとえば、インドの南部では最も高く、北部では最も低くなります)や言語(つまり、インド・ヨーロッパ語族話者と比較してドラヴィダ語族話者ではより高くなります)や社会集団(部族集団では他集団と比較して最も高くなります)と顕著に関連していますが、各集団内で大きな差異があります(図1C)。これは、こうした古代の混合事象がインドの遺伝的多様性の形成に影響を及ぼした、と浮き彫りにします。
●創始者効果はインドで同型接合性を増加させます
先行研究では、多くのインド人集団が族内婚(共同体内の結婚)のため強い創始者事象と近親婚(親族間の結婚)の歴史を有している、と示されてきました。そうした事象は遺伝的差異を減少させ、有害な多様体の除去における選択の効果を低下させて、潜性(劣性)疾患の危険性を増加させます。ゲノム水準では、創始者事象は数人の共通祖先からの染色体領域の継承されたIBD共有を増加させます。近親婚の子孫は両親からIBD断片を継承する可能性がより高く、HBDの断片をもたらします。創始者事象は多くの短いHBD断片をもたらしますが、近い過去の近親婚は少ないもののより長いHBD断片をもたらします。
ハプロタイプに基づくIBD検出手法であるhap-IBDを用いて、LASI-DADおよび1000GデータセットにおけるIBDおよびHBD断片とが特定されました。創始者事象と近い過去の近親婚の影響を区別するために、近親婚を示唆する長い断片(8cM超)と、おもに創始者事象を示唆する短い断片(8cM未満)によって、HBD断片が層別化されました。インド人は平均的に、1000Gのアジア東部(約6cM)やユーラシア(約6cM)やアフリカ(約4cM)と比較して、HBD断片のゲノムでの割合がより高くなっています(図2A)。インド内では、南部の個体群がゲノムでのHBD断片の合計量(平均的に、南部では約19cMの他地域と比較して約56cM)と長いHBD断片の割合(南部では8.4%、他地域では4.3%)の両方の観点で、有意により高い割合の同型接合性を有しています。これは、インド南部におけるより高い割合の近親婚を反映しています(図2A)。同型接合性の大半(90%超)は(長いHBD断片ではなく)短いHBD断片に由来しており、同型接合性の起源として、近い過去の近親婚ではなく、歴史的な創始者事象の主要な役割が示唆されます。同様の結果は、長いHBD断片の定義として20cMの閾値を用いても得られます。以下は本論文の図2です。
次に、個体間のゲノム規模IBD共有が調べられました。LASI-DAD内に少なくとも1人の遺伝的親族のいる個体の割合が計算され、この割合が1000Gの世界中の人口集団と比較されました。LASI-DADの個体の約51.0%(地域間で38.4~59.2%)で、3親等のイトコもしくはより密接な関係に相当する予測されるIBD共有(約53cM)の親族が少なくとも1人見つかり、これは1000Gのアフリカにおける17.2%やアジア南部の14.2%やアジア東部の8.8%やユーラシアの8.8%より顕著に高くなります(先行研究では、GWDとESNにおいて個体の約5~10%が1~2親等の親族と特定され、アフリカでより高い近縁性に寄与していることに要注意です)。とくに1000Gのアジア南部と比較してのLASI-DADにおけるより高い割合のIBD共有は、(1)LASI-DADのより大きな標本規模か、あるいは(2)いずれかの研究における個体選択での確認の偏りに起因するかもしれません。次に、これらの仮説のそれぞれが調べられました。LASI-DADと1000Gアジア南部の同じ数(500個体)の個体群のブートストラップ再標本抽出が実行され、3親等のイトコの割合は24.2%(95%CIで19.4~28.6%)に減少したものの、1000Gアジア南部より有意に高かった、と推定されました(図2B)。LASI-DADでは、個体群は層別化された標本抽出体系で募集され、まず、村落おもくし都市の国勢調査区でのSSUが各州内で選択され、その後に各SSU内の個体群の無作為選択が行なわれました。本論文の標本選択手法の影響を制御するために、LASI-DADにおけるさまざまなSSUの個体の組み合わせが比較されました。標本抽出場所と標本規模の制御にも関わらず、1000Gアジア南部と比較してLASI-DADにおいてより高い近縁性が依然として見つかりますが、違いはより緩やかです。この比較は、インドの遺伝的差異を表すための、1000Gの標本抽出(おもにインド亜大陸からの少数の移住集団)の限界を浮き彫りにします。全体的に、LASI-DADの個体は全員、本論文のデータセットでは少なくとも1人の4親等のイトコもしくはそれ以上の親族(IBDが10cM超)がいる、と分かりました。
●インドにおける古代型人類からの遺伝子流動
インド人を含めてほとんどの非アフリカ人は、その祖先系統の約1~2%が古代型人類、つまりネアンデルタール人およびデニソワ人からの遺伝子流動に由来します[5、7]。しかし、インドにおける古代型祖先系統の機能的影響と地域的差異は、依然として不明です。hmmixと呼ばれる参照のない隠れマルコフモデルが、インドの位相化された2679個体に適用されました(標本を最大化するために、両親の子供を除いて、1親等の親族が保持されました)。hmmixは、外群(ここでは、無視できる量の古代型祖先系統を有する、サハラ砂漠以南のアフリカ人490個体が用いられます)では見られない派生的アレルの多様性の比較によって、ゲノム断片を2通りの状態、つまり「現生人類」か「古代型人類」に分類します。インド人における古代型祖先系統を他の世界中の人口集団と比較するために、hmmixが1000Gの2309個体およびHGDPの825個体の位相化されたデータにも適用され、deCODE遺伝学のアイスランド人27566個体についてのhmmixの刊行されている結果が用いられました。断りのない場合には、模擬実験で偽陽性率4%未満に変換される0.8超の事後確率のある、古代型祖先系統断片が保持されました。
インド人は平均して、古代型祖先系統の呼び出し可能なゲノムの102.98Mbもしくは2.02%(95%百分位数の範囲で1.79~2.29%)を有しています。推定される古代型断片を配列決定されたネアンデルタール人およびデニソワ人のゲノム[46~49]と比較することによって、古代型断片に存在する共有DAVの数の測定に基づき、古代型祖先系統の起源が推測されました。その結果、各個体は約1.43%(1.26~1.65%)のネアンデルタール人祖先系統と約0.10%(0.03~0.17%)のデニソワ人祖先系統を有している、と分かりました。インドにおけるネアンデルタール人祖先系統の割合は、ヨーロッパ人(約1.2%)およびアメリカ大陸先住民(約1.3%)と類似していますが、アジア東部人より有意に低くなっています。推定されるデニソワ人祖先系統の割合が最高なのはオセアニア人(約2.0%)ですが、アメリカ大陸先住民とアジア東部人とアジア南部人は同様の量(約0.1%)を有しています。
LASI-DADの個体群から抽出された重複していない古代型祖先系統断片の組み立てによって、遺伝子移入されたネアンデルタール人のゲノム1524Mb、遺伝子移入されたデニソワ人のゲノム591Mbが再構築されました(図3A)。注目すべきことに、全世界の地域の個体群(1000GとHGDPとLASI-DADから)を用いると、遺伝子移入されたネアンデルタール人のゲノム1679Mbが再構築され、これは直接的に配列決定されたネアンデルタール人のゲノムの大きさと類似しています(選別後、約1650Mb)。アジア東部人におけるより高い割合の個体ごとのネアンデルタール人祖先系統にも関わらず、同じ標本規模に制御した後でさえ、アジア東部人よりもインド人の方から多くのネアンデルタール人配列が回収されます。アイスランド人27566個体における古代型祖先系統の最大規模の研究では、遺伝子移入されたネアンデルタール人のゲノム978Mbと遺伝子移入されたデニソワ人のゲノム112Mbが回収されました(より厳格な選別とhmmixにおける0.9超の事後確率を使用[50])。これらより厳密な閾値を用いてさえ、アイスランド人よりもインド人(LASI-DAD)の方から50%超多くのネアンデルタール人祖先系統断片が回収されました(図3A)。世界の全地域を用いると、遺伝子移入されたデニソワ人のゲノム1080Mbが再構築されました。デニソワ人祖先系統の最大量はインド人から回収されますが、これはHGDPにおけるオセアニア人の標本規模(28個体)へと二次標本抽出後には有意ではありません。以下は本論文の図3です。
次に、インド人と1000GおよびHGDPデータセットの他の世界中の人口集団との間で共有されている(つまり、同じゲノム領域で重複している)、古代型配列の量が計算されました。その結果、ネアンデルタール人祖先系統の81.2%が少なくとも世界中の2地域間で共有されており(図3A)、約11.7%(もしくは1679Mbのうち195.9Mb)はインドでのみ見られる、と分かりました。全体的に、世界中のネアンデルタール人配列の約90.8%はインド人で観察されます(補足図1)。1000G(490個体)およびHGDP(28個体)の最小限の標本規模に合わせるために二次標本抽出した後でさえ、ネアンデルタール人祖先系統の最大の割合はインド人に存在する(490個体では84.5%、29個体では57.3%)、と分かりました。さらに、オセアニア人とインド人は、他の世界中の人口集団と共有されていない、かなりの量のデニソワ人祖先系統配列を有しています。デニソワ人配列の約51%(591Mbのうち301.6Mb)はインド人のみで観察され、これは二次標本抽出後でさえ依然として有意です。以下は本論文の補足図1です。
配列決定された古代型ゲノムとの遺伝子移入した古代型人口集団の関係を推測するために、高網羅率のネアンデルタール人3個体[46~48]およびデニソワ人1個体[49]のゲノムへの、各遺伝子移入された断片におけるDAVのSNPの一致率が推定されました。先行研究[52]と同様の手法を用いると、平均的に、遺伝子移入されたネアンデルタール人の断片はDAVの83%を配列決定されたネアンデルタール人3個体のゲノムと共有している(ヴィンディヤ洞窟のネアンデルタール人と最高の共有)、と分かり、インドにおける模試からの遺伝子流動の単一の波との調査結果が再現されました。インドのほとんどの集団のデニソワ人関連祖先系統は、配列決定されたアルタイ山脈のデニソワ人のゲノムとは遠い関係だった単一の人口集団に由来します(共有されるDAVのSNPは46~50%)。インド北東部および南部の個体群におけるデニソワ人関連祖先系統の低い割合は、配列決定されたデニソワ人のゲノムと密接に関連するデニソワ人集団に由来します(共有されるDAVのSNPは平均で84%)。インド北東部の個体群は、デニソワ人祖先系統の2回の波を有している、と以前に示された[52]アジア東部関連集団(図1B)からの最近の祖先系統を有しています。ネアンデルタール人およびデニソワ人祖先系統以外に、インド人における未知の起源からの0.42%(95%百分位数の範囲で0.37~0.48%)の古代型祖先系統が推定されました。この割合は非アフリカ人、全員で同様で、配列決定された古代型ゲノムと遺伝子移入した古代型個体群との間の違いと関連しているかもしれません。したがって、以前の主張に反して、インド人への他の未知の古代型人類からの(少なくとも、他の世界中の人口集団以上の)追加の寄与の明確な証拠はありません。
古代型祖先系統はインドの地域間で異なっており、古代型祖先系統の割合は、インド北東部および東部で最高となり、インド北部で最低となります。最近の遺伝子流動がインドにおける古代型祖先系統の分布をどのように形成してきたのか、調査するために、インドにおける主要な3祖先系統構成要素の関数として、ネアンデルタール人祖先系統とデニソワ人祖先系統との間の関係が調べられました。インド勾配上の個体群(2126個体)に焦点を当てると、AHG関連祖先系統はデニソワ人祖先系統およびネアンデルタール人祖先系統の両方と正に相関する、と分かりました。古代型の1集団のみが現生人類と一致する派生的アレルを有する部位の使用によって、ネアンデルタール人およびデニソワ人起源への古代型祖先系統断片の割り当てについてより厳密な基準を用いると、これらの結果は堅牢です。このパターン、とくにデニソワ人とAHG関連祖先系統との間の相関は、ユーラシア西部関連集団には最小限のデニソワ人祖先系統があることを考えると[54]、意外ではありません。
●インド亜大陸への出アフリカ移動の時期
インドの移住における中心的な問題は、現生人類がアフリカからインド亜大陸に最初に到来した時期です。考古学的証拠は、74000年前頃に起きたトバ(Toba)噴火の前後におけるインドでの居住を示唆しています[51]。しかし、トバ噴火前の集団がインドの現代人の祖先系統に寄与したのかどうか、不明です。サハラ砂漠以南のアフリカ集団からのインド人の分離時期(つまり、出アフリカ移動の時期)を推測するために、hmmixによって推定される発散率が用いられました(「現生人類」の状態について)。理論的には、この媒介変数は1個体がサハラ砂漠以南のアフリカ人からの分岐以降に蓄積した変異の数を反映しています。したがって、所与の変異率について、サハラ砂漠以南のアフリカ人との下限合着(合祖)時期を推測できます。
さらに、インド人の推定合着時期がアジア東部人やヨーロッパ人やアメリカ大陸先住民など他の非アフリカ人集団と同様なのかどうか、(各人口集団のhmmix発散率を用いて)調べられました。人口集団とデータセットにわたって、位相化誤差や3アレル部位の除去を含めて技術的要因が制御され、1%以上のサハラ砂漠以南のアフリカ関連祖先系統の個体が除外されました(これらの各要因が発散率を偏らせるかもしれないため)。1年の1塩基対あたりのヒト変異率を0.45 × 10⁻⁹と仮定すると[55]、インド人とサハラ砂漠以南のアフリカ人との間の下限合着時期は53932年前頃(95%百分位数の範囲で54644~53190年前)と推定されます。HGDPデータセットのヨーロッパ人とアジア東部人とアジア南部人について、定性的に同様の結果が得られます。さらに、模擬実験の実行によって、インド人において観察された発散媒介変数は、74000年前頃起きたそれ以前の1回の移住からの0~3%の祖先系統に由来する差異と一致する、と示されます。本論文の結果から、現在のインド人の祖先系統の大半は5万年前頃に起きたアフリカからの主要な移動事象に由来する、と論証されます。
●疾患および機能的差異への進化史の影響
遺伝子流動や創始者事象や自然選択を含めて人口史は、疾患感受性など遺伝的差異の形成に重要な役割を果たします。インドにおける遺伝的差異への進化史の影響を研究するために、多様体の機能的影響が特徴づけられ、それには、pLoFもしくはミスセンス多様体(アミノ酸が変わるような多様体)など、タンパク質構造を変えるものも含まれます。385985ヶ所のミスセンス多様体およびpLoF多様体が特定されました。各個体は常染色体上に、約10344ヶ所(9911~10761ヶ所の範囲)の派生的なミスセンス多様体と約67ヶ所(46~96ヶ所の範囲)のpLoF多様体を有しており、これは他の世界中の人口集団で観察された推定値と同様です。これらの多様体のほとんど(90%超)は、稀(頻度が1%未満)もしくはシングルトン(singleton、対象集団内の1点の標本でしか観測されていない変異)です(約62%)。ヒトゲノムにおける18451個のタンパク質をコードする常染色体遺伝子(RefSeqデータベース)のうち、遺伝子の89.5%でミスセンス多様体およびpLoFが見つかり(48%でpLoF)、その範囲は1遺伝子あたり1~1265ヶ所の多様体です(1~52ヶ所のpLoF)。pLoF多様体の数が最も多い上位3個の遺伝子はムチン遺伝子で、MUC3AとMUC16とMUC17にはそれぞれ、52ヶ所と42ヶ所と41ヶ所のpLoFがあり、MUC17では同型接合のpLoFが含まれています。ムチン遺伝子の機能には部分的な冗長性があるので、機能喪失多様体への耐性がより大きいかもしれません。
創始者事象の歴史は、フィンランド人やアシュケナージ系ユダヤ人で見られるように、有害な多様体の高い負荷と潜性疾患の危険性増大を予測します。インドの個体群で、同型接合の有害な変異負荷率における差異(同型接合のミスセンスおよびpLoFの合計として測定されます)が調べられました。その結果、より高い割合のAHG関連祖先系統を有する個体群は、他の祖先系統と比較してより大きな同型接合の有害な変異を有する、と分かりました(図4A)。注目すべきことに、同型接合の有害な変異負荷は個体あたりのHBD断片の合計と強く相関しています。つまり、これが示唆しているのは、より高い割合のAHG関連祖先系統を有する個体群におけるより高い変異負荷が、より高いHBDによって引き起こされ、それが最近の創始者事象および近親婚の結果であることです(図4B)。406304ヶ所のミスセンス多様体およびpLoFでは、約40%がgnomADもしくは1000Gに登録されておらず、そうした多様体の大半はひじょうに稀である(0.1%未満)でふある、と分かりました。非シングルトンのミスセンス/ pLoF多様体がClinVarデータベースに存在し、「病原性」もしくは「病原性の可能性が高い」と分類された214ヶ所の多様体が含まれます。ClinVarの病原性多様体の多くは、血液疾患と関連するHBBや、先天性難聴と関連するGJB2や、嚢胞性繊維症と関連するCFTRや、フェニルケトン尿症と出役割を果たすPAHなど、稀な潜性疾患と関連する遺伝子にあります。注目すべきことに、LASI-DADの15個体(0.28%)に存在するものの、アジア南部以外では見られないBCHE遺伝子において、病原性多様体(L307P)が見つかりました。BCHE欠損の患者は、麻酔で一般的に使用される特定の筋肉弛緩薬の使用への反応で、筋肉麻痺の危険性がより高くなります。この多様体はアーンドラ・プラデーシュ州とテランガーナ州に暮らすヴァイシャ共同体の個体群で多く、これはLASI-DADの保因者15人のうち8人がテランガーナ州出身との本論文の観察と一致します。これらの調査結果は、インドにおける疾患負荷減少のための人口集団特有の遺伝的検査の価値を強調します。以下は本論文の図4です。
インドにおける古代型祖先系統の機能的影響を特徴づけるために、古代型祖先系統のゲノム規模の分布が調べられ、「高頻度古代型祖先系統」(個体の古代型祖先系統の頻度がゲノム規模の平均より2標準偏差高い領域として定義されます)の領域が特定されました(図4C)。ネアンデルタール人祖先系統とデニソワ人祖先系統それぞれで、高頻度の1590ヶ所と818ヶ所の候補領域が特定されました。ネアンデルタール人については、FBP2やFYCO1など以前に特定された遺伝子[54、66]が再現され、追加の候補としてPCAT7およびCXCR6が特定されました。GO濃縮分析を実行すると、おもに免疫機能と関連する経路が、ネアンデルタール人祖先系統では14ヶ所、デニソワ人では22ヶ所見つかりました。
次に、現生人類と古代型集団との間で共有されている派生的アレルの数が多い領域を検索し、これはチベット人においてEPAS1とデニソワ人祖先系統で以前に観察された痕跡です[17]。興味深いことに、ゲノムのある領域ではインド人とのみ共有されているデニソワ人由来の多様体が不均衡に増加する、と分かりましたが、同様の増加はネアンデルタール人由来の多様体では見られません。MHCの一部であるBTNL2遺伝子があるこの領域には、13.2kbの領域内に78ヶ所のデニソワ人固有の派生的多様体が含まれています。この領域には、インド人ではひじょうに高い割合(約10%)のデニソワ人祖先系統もあります(99.9百分位数超)。この領域におけるデニソワ人のハプロタイプは長さでまとまっており、55~65kbの短いハプロタイプと、約150kbの長いハプロタイプがあり、それぞれ116.1ヶ所と126.7ヶ所のデニソワ人固有の派生的多様体が含まれています。インド人とデニソワ人との間で共有されている派生的アレルのハプロタイプの長さと数から、この領域は、祖先の系統分類ではなく、デニソワ人もしくはデニソワ人関連集団からの遺伝子流動の産物である可能性が高い、と示唆されます。世界中の人口集団では、これらのデニソワ人ハプロタイプはアジア東部人においても高頻度で存在しますが(約11.8%、99.8百分位数超)、ヨーロッパ人では稀で(約0.4%)、注目すべきことに、オセアニア人には存在しません。MHCには、免疫機能および平衡選択を受ける可能性の高い感染症と関連する、多くの遺伝子が含まれています。じっさい、先行研究[10]はアジア東部人における平衡選択の候補としてBTNL2を特定しました。模擬実験では、強い創始者事象によって生成された遺伝的浮動のみが、古代型祖先系統の頻度を急速に変えることができる(選択がない場合でさえ)、と示されているものの、高頻度の古代型祖先系統の領域は慎重に解釈されるべきです。
インド人に多い(アジア東部人およびヨーロッパ人と比較して)古代型祖先系統領域を特定するために、PBSが計算されました。PBSは、2参照集団から分岐して以降の、1人口集団(インド人)における頻度の増加を測定します。各人口集団について、ゲノム区画全体にわたってネアンデルタール人およびデニソワ人祖先系統の頻度が測定されました。インド人において、ネアンデルタール人祖先系統では約10.7Mb(もしくは235個の遺伝子)の増加が、デニソワ人祖先系統では約5.5Mb(もしくは84個の遺伝子)の増加が特定されました。デニソワ人祖先系統の多い領域には、宿主細胞へのウイルスの侵入(もしくは排出)と関連する細胞過程と関わるいくつかのTRIM遺伝子(TRIM26、TRIM31、TRIM15、TRIM10、TRIM40)など、自然免疫応答と関連する遺伝子が含まれています。最も顕著なネアンデルタール人祖先系統の増加した領域の1ヶ所には、以前にSARS-CoV-2観戦による呼吸不全の危険性増加関連づけられた[16]3番染色体上の遺伝子クラスタ(まとまり)が含まれています(ゲノム規模PBS得点の99.99百分位数でPBSネアンデルタール人が0.118超)。この領域にはネアンデルタール人起源の主要な2ヶ所のハプロタイプがあり、それは49.4kbの中核ハプロタイプと333.8kbの長いハプロタイプです。インド全域で、中核ハプロタイプの頻度の範囲は20.5%(インド北東部)から34.8%(インド東部)の間となります。中核ハプロタイプと長いハプロタイプ両方の頻度は、他地域と比較してインド東部において有意に高くなっています(中核ハプロタイプは34.8%、長いハプロタイプは23.2%)。1Mb超のひじょうに長いハプロタイプ39ヶ所も見つかりました。
現代人における古代型祖先系統が存在しないゲノムの領域も調べられ、これは「古代型砂漠」と呼ばれています[50、54、71、72]。合計87.1Mbにまたがる6ヶ所のネアンデルタール人砂漠が特定され、これには以前に報告された5ヶ所[71]が含まれます(図4C)。インド人において13ヶ所のデニソワ人砂漠も特定され、これには依然に報告されたネアンデルタール人砂漠と重複する2ヶ所が含まれます。インド人におけるデニソワ人祖先系統のゲノム規模での低い割合を考えると、追加の標本抽出によってこれらの砂漠の一部においてデニソワ人祖先系統が明らかになる可能性は高いでしょう。先行研究[54、73]はとくにゲノムの機能的に重要な領域で、遺伝子の近くの古代型祖先系統のより強い枯渇を示してきており、遺伝子移入された多様体は有害で、純化選択によって除去された、と示唆されます。そこで、18451個のタンパク質コード遺伝子全体で古代型祖先系統の頻度が調べられ、遺伝子では、ネアンデルタール人祖先系統は0~36.7%、デニソワ人祖先系統は0~21.9%の範囲で変わる、と分かりました。本論文の手法の解像度の限界内では、多くの遺伝子(約35%)には古代型祖先系統断片が含まれていません。これらの遺伝子にはAPOE遺伝子があり、これには遅発性ADの主要な危険因子であるAPOE ε4多様体が含まれています。しかし、本論文の現時点の標本規模では、これらの結果は有意ではなく、より大きなコホートで再現されるべきです。
●考察
インドは並外れた遺伝的多様性の地域です。本論文は、インドにおける遺伝的差異の最も包括的な調査を行ない、それにはほとんどの地理的地域の個体群や、すべての主要な語族の話者や、部族および歴史的に過小評価されてきた共同体が含まれます。本論文では、インド人の遺伝的差異のほとんどは5万年前頃に起きたアフリカからの単一の主要な移動に由来し、その後でネアンデルタール人およびデニソワ人からの遺伝子流動があった、と示されます。ほとんどのインド人は現在、AHGおよび古代イラン農耕民および草原地帯牧畜民集団と関連する主要な3供給源からの祖先系統を有しています。新石器時代から鉄器時代にかけての古代インド人14集団からのデータの調査によって、インドのASIとANIとオーストロアジア語族話者関連集団とアジア東部関連集団への、タジキスタンの紀元前四千年紀の農耕民および牧畜民(紀元前3600~紀元前3500年頃のサラズム_EN)と関連するイラン農耕民関連祖先系統の共通の起源が明らかになりました。考古学的研究も、サラズム遺跡とアジア南部との間の交易のつながりを報告してきており、それにはメヘルガル考古学的遺跡および初期インダス川流域文明とのつながりが含まれます。じっさい、サラズム_ENの2個体のうち1個体は、マクラン地方のシャヒ・タンプ遺跡やグジャラート州のスールコータダー遺跡など、パキスタンおよびインドの遺跡での発見物と同一の、貝殻製腕輪とともに発見されました。これらの混合に続いて、インドは族内婚への大きな人口統計学的変化を経ており、広範な同型接合性および個体間のIBD共有が生じました。
インド人における高水準の近縁性は注目に値し、約2700人の標本規模で、各個体には少なくとも1人の4親等のイトコもしくはそれ以上の親族(IBD共有の量が10cM超)がいる、と分かりました。さらに、インド人の同型接合性水準は増加しており(平均で、1個体あたり約12~56cMの範囲の領域にわたって)、これはアジア東部人およびヨーロッパ人よりも2~9倍高いことになります。これらの調査結果は、インド人における広範な家族のつながりを浮き彫りにし、これは族内婚など歴史的か文化的か社会的なパターンを反映しています。同型接合性は、有害な多様体の割合と潜性疾患の危険性を増加させます。ミスセンスおよびpLoF多様体の目録が作成され、16万ヶ所以上の多様体が発見されました(以前のゲノム調査では登録されていませんでした)。これらの多様体の多くはClinVarで注釈付けされており、最近の文献で報告されているように、先天性疾患および血液疾患や、代謝疾患および薬物反応や、認知機能低下や認知症など複雑な健康状態と関連しています。注目すべきことに、これらの多様体はインド外では見られず、インド全体において低頻度で存在しますが、BCHE欠損につながる病原性のミスセンス多様体(L307P)の分布によって例証されるように、一部の共同体ではかなり一般的です。そうした多様体の特定と対応付けには、アシュケナージ系ユダヤ人およびフィンランド人の研究で以前に示されたように、疾患原因の理解を深め、疾患負荷を軽減する、大きな可能性があります。
インド人は深い時間尺度では、古代型人類であるネアンデルタール人およびデニソワ人からの1~2%の祖先系統を有しています。インド人は現代人の中で、古代型祖先系統において最大の差異を示します。注目すべきことに、現在の個体群に存在するネアンデルタール人祖先系統の大半はインドで見つかりますが、他の世界中の人口集団はこの差異の部分集合しか保持していません。ネアンデルタール人およびデニソワ人から遺伝子移入された多様体は適応と疾患に寄与している、と分かりました。いくつかの古代型多様体は免疫に役割を果たす遺伝子および経路で濃縮されており、それにはMHCで濃縮されているデニソワ人から継承されたハプロタイプや、自然免疫応答と関連するTRIM族遺伝子や、SARS-CoV-2感染後の重症化の主要な危険因子を有する3番染色体上のネアンデルタール人から継承された遺伝子クラスタが含まれています。この知識の活用によって、とくに自己免疫疾患や感染症など免疫関連要素のある疾患について、インド人集団に適合した新たな治療法の開発に役立つかもしれません。ネアンデルタール人では6ヶ所、デニソワ人では13ヶ所の祖先系統砂漠が特定され、これにはネアンデルタール人とデニソワ人の両方で存在しない4ヶ所の領域が含まれています。興味深いことに、これらの領域の1ヶ所には、ヒトにおける言語発達と関連するFOXP2遺伝子が含まれています[71]。これらの砂漠の機能的研究は、現生人類固有の特徴および疾患に寄与している、以前には特徴づけられていなかった遺伝的多様体を解明できるかもしれません。
まとめると、これらの調査結果は、インドの遺伝的景観の包括的な視界を提供し、深い進化史、人口統計学的変化、インド亜大陸における遺伝的差異への古代型および最近の遺伝子流動の影響を浮き彫りにします。インド人の独特な遺伝的構造は、将来の医療および機能ゲノム研究における、祖先系統と同型接合性の取り込みの重要性を強調しています。
●この研究の限界
この研究では、インドの約2700人から得られた全ゲノム配列が、古代および現在の個体群を含めて、他の世界規模の人口集団と比較されました。これらのデータを用いて、多様な個体群の祖先系統が特徴づけられ、インドにおける遺伝的差異と疾患への人口統計学的歴史の影響が調べられました。本論文の結果は、多様な人口集団と時間尺度の参照個体群の利用可能性に依存しています。たとえば、インドにおけるイラン農耕民関連祖先系統の最も近い代理(標本抽出された個体群の中で)はアジア中央部の文化の紀元前四千年紀の農耕民および牧畜民である、と特定されました。しかし、この地域および時間尺度の遺伝的データはひじょうに少なく、インドおよびアジア中央部からより多くの古代DNAデータが利用可能になるにつれて、これらの分析を再考し、インドにおけるイラン農耕民祖先系統の起源を確認することが重要でしょう。さらに、地域的な祖先系統推定手法を用いての、現代のインド人における狩猟採集民関連祖先系統とイラン農耕民関連祖先系統と草原地帯牧畜民関連祖先系統の特定は、インド亜大陸における環境適応と疾患感受性の起源および動態を明らかにするでしょう。
参考文献:
Kerdoncuff E. et al.(2025): 50,000 years of evolutionary history of India: Impact on health and disease variation. Cell, 188, 13, 3389–3404.E6.
https://doi.org/10.1016/j.cell.2025.04.027
[3]Bycroft C. et al.(2018): The UK Biobank resource with deep phenotyping and genomic data. Nature, 562, 7726, 203–209.
https://doi.org/10.1038/s41586-018-0579-z
関連記事
[5]Mallick S. et al.(2016): The Simons Genome Diversity Project: 300 genomes from 142 diverse populations. Nature, 538, 7624, 201–206.
https://doi.org/10.1038/nature18964
関連記事
[6]Bergström A. et al.(2020): Insights into human genetic variation and population history from 929 diverse genomes. Science, 367, 6484, eaay5012.
https://doi.org/10.1126/science.aay5012
関連記事
[7]GenomeAsia100K Consortium.(2019): The GenomeAsia 100K Project enables genetic discoveries across Asia. Nature, 576, 7785, 106–111.
https://doi.org/10.1038/s41586-019-1793-z
関連記事
[9]Rasmussen M. et al.(2011): An Aboriginal Australian Genome Reveals Separate Human Dispersals into Asia. Science, 334, 6052, 94-98.
https://doi.org/10.1126/science.1211177
関連記事
[10]Pagani L. et al.(2016): Genomic analyses inform on migration events during the peopling of Eurasia. Nature, 538, 7624, 238–242.
https://doi.org/10.1038/nature19792
関連記事
[15]Simonti CN. et al.(2016): The phenotypic legacy of admixture between modern humans and Neandertals. Science, 351, 6274, 737-741.
https://doi.org/10.1126/science.aad2149
関連記事
[16]Zeberg H, and Pääbo S.(2021): A genomic region associated with protection against severe COVID-19 is inherited from Neandertals. PNAS, 118, 9, e2026309118.
https://doi.org/10.1073/pnas.2026309118
関連記事
[17]Huerta-Sánchez E. et al.(2014): Altitude adaptation in Tibetans caused by introgression of Denisovan-like DNA. Nature, 512, 7513, 194–197.
https://doi.org/10.1038/nature13408
関連記事
[19]Karczewski KJ. et al.(2020): The mutational constraint spectrum quantified from variation in 141,456 humans. Nature, 581, 7809, 434–443.
https://doi.org/10.1038/s41586-020-2308-7
関連記事
[30]Narasimhan VM. et al.(2019): The formation of human populations in South and Central Asia. Science, 365, 6457, eaat7487.
https://doi.org/10.1126/science.aat7487
関連記事
[35]Haak W. et al.(2015): Massive migration from the steppe was a source for Indo-European languages in Europe. Nature, 522, 7555, 207–211.
https://doi.org/10.1038/nature14317
関連記事
[41]Ringbauer H, Novembre J, and Steinrücken M.(2021): Parental relatedness through time revealed by runs of homozygosity in ancient DNA. Nature Communications, 12, 5425.
https://doi.org/10.1038/s41467-021-25289-w
関連記事
[46]Prüfer K. et al.(2014): The complete genome sequence of a Neanderthal from the Altai Mountains. Nature, 505, 7481, 43–49.
https://doi.org/10.1038/nature12886
関連記事
[47]Mafessoni F. et al.(2020): A high-coverage Neandertal genome from Chagyrskaya Cave. PNAS, 117, 26, 15132–15136.
https://doi.org/10.1073/pnas.2004944117
関連記事
[48]Prüfer K. et al.(2017): A high-coverage Neandertal genome from Vindija Cave in Croatia. Science, 358, 6363, 655–658.
https://doi.org/10.1126/science.aao1887
関連記事
[49]Meyer M. et al.(2012): A High-Coverage Genome Sequence from an Archaic Denisovan Individual. Science, 338, 6104, 222-226.
https://doi.org/10.1126/science.1224344
関連記事
[50]Skov L. et al.(2020): The nature of Neanderthal introgression revealed by 27,566 Icelandic genomes. Nature, 582, 7810, 78–83.
https://doi.org/10.1038/s41586-020-2225-9
関連記事
[51]Clarkson C. et al.(2020): Human occupation of northern India spans the Toba super-eruption ~74,000 years ago. Nature Communications, 11, 961.
https://doi.org/10.1038/s41467-020-14668-4
関連記事
[52]Browning SR. et al.(2018): Analysis of Human Sequence Data Reveals Two Pulses of Archaic Denisovan Admixture. Cell, 173, 1, 53-61.e9.
https://doi.org/10.1016/j.cell.2018.02.031
関連記事
[54]Sankararaman S. et al.(2014): The genomic landscape of Neanderthal ancestry in present-day humans. Nature, 507, 7492, 354–357.
https://doi.org/10.1038/nature12961
関連記事
[55]Jónsson H. et al.(2017): Parental influence on human germline de novo mutations in 1,548 trios from Iceland. Nature, 549, 7673, 519–522.
https://doi.org/10.1038/nature24018
関連記事
[66]Racimo F. et al.(2017): Signatures of Archaic Adaptive Introgression in Present-Day Human Populations. Molecular Biology and Evolution, 34, 2, 296-317.
https://doi.org/10.1093/molbev/msw216
関連記事
[71]Vernot B. et al.(2016): Excavating Neandertal and Denisovan DNA from the genomes of Melanesian individuals. Science, 352, 6282, 235–239.
https://doi.org/10.1126/science.aad9416
関連記事
[72]Chen L. et al.(2020): Identifying and Interpreting Apparent Neanderthal Ancestry in African Individuals. Cell, 180, 4, 677–687.E16.
https://doi.org/10.1016/j.cell.2020.01.012
関連記事
[73]Juric I, Aeschbacher S, Coop G (2016) The Strength of Selection against Neanderthal Introgression. PLoS Genet 12(11): e1006340.
https://doi.org/10.1371/journal.pgen.1006340
関連記事






この記事へのコメント