古人類学の手法と用語に関するまとめ
これまで古人類学関連の記事において、さまざまな手法や用語の解説をその都度述べることがありましたが、煩雑なので、おもに集団遺伝学関連の手法と用語について、この機会に一度まとめておきます。おもにアジアへの現生人類(Homo sapiens)拡散の総説(関連記事)に依拠し、祖先系統(祖先系譜、祖先成分、祖先構成、ancestry)については、その理解の問題点を指摘した見解(関連記事)も参照します。言及し忘れたり新たに取り上げたりした手法や用語は、順次追加していきます。
◎手法
●ADMIXTURE
個々のゲノムが共有される構成要素の混合としてモデル化できると仮定し、構成要素と関連づけることができる各ゲノムの割合を推定する統計的手法です。構成要素の数であるKは使用者により規定され、この手法は通常、複数のKにわたって使用されます。
●古代DNA捕獲
標本で見つかった全てのDNAを配列決定するのではなく、一塩基多型(SNP)の区画について濃縮する配列決定技術です。これにより、環境中のDNAの配列決定ではなく、対象種(この場合はヒト)に特異的なDNAを標的にできます。古代の標本における内在性DNAは少なく、対象種からDNAを効率的に回収できるので、この実験室手法は一般的です。いくつかのSNP区画がヒトで開発されてきており、より小さなものは大きなものの部分集合で、380万ヶ所と220万ヶ所と最も一般的な120万ヶ所です。
●D統計もしくはf4統計
比較的遺伝的類似性のある4集団検定です。典型的なのはD型式(A、B;C、外群)で、AとCに対するBとCとの間の共有されるアレル(対立遺伝子)の数を測定します。共有されるアレルの数が多いほど、第三集団と比較してのそれら2集団間のより高い遺伝的類似性を示唆します。
●diCal2
条件付き標本抽出分岐を用いて経時的な人口規模の変化や分岐時間の推定などの媒介変数を推定する、集団遺伝学的推定手法です。この手法では、完全に媒介変数の人口統計学的モデルの包摂が可能となり、移住と関連する媒介変数を可能とします。
●f4比統計
f4統計を用いて、混合事象から混合割合を推定するのに用いられる手法です。この手法は、標的集団もしくは他の供給源集団とも混合しなかった1供給源集団と密接に関連した標本の利用可能性を前提としています。
●fastsimcoal2
標本抽出集団の模擬実験と部位頻度範囲、および特定のモデルの媒介変数を推定する複合尤度法を用いる集団遺伝学的推定手法です。
●fineSTRUCTURE
一連の個体のうち高い類似性を有する連続した配列もしくはハプロタイプの区画を、同じ構成要素に割り当てる統計的手法です。「染色体画法」と呼ばれるこの手法により、各塩基対の物理的位置を用いて、より精細な規模で類似性を調べることができます。
●IBDmix
現代人の参照配列を利用せず、ネアンデルタール人(Homo neanderthalensis)など非現生人類ホモ属(古代型ホモ属、絶滅ホモ属)から現生人類への遺伝子流動を検出します。IBDmixでは、変異頻度やIBD(用語の項目を参照)領域の長さのような非現生人類ホモ属配列の特徴を用いて、共通配列が最近の混合なのか、それとも共通祖先に起因するのか、区別します(関連記事)。
●マッピング
多少の違いを許容しつつ、ゲノム配列内の類似性が高い処理を同定する情報処理です。
●momi2
特定のモデルで計算された部位頻度範囲を、標本抽出された集団一式の観察された部位頻度範囲と比較し、特定のモデルで媒介変数を推定する集団遺伝学的推定手法です。高品質のゲノムから推測された「足場(scaffold)」へと、低網羅率の個体群の配置を可能とします。
●MSMC(Multiple Sequentially Markovian Coalescent、複数連続マルコフ合祖)
ゲノムの小規模な一式に依存し、分岐時間を推定して個体群のさまざまな下位集団の内部および全体にわたる経時的な人口規模や合祖(合着)率など媒介変数を推定する、集団遺伝学的推定手法です。
●ノンパラメトリック
個体の組み合わせ全体で共有される同祖対立遺伝子(用語の項目を参照)である断片の分布を活用し、有効人口規模を推定します。パラメトリックとは、母集団の分布を仮定した統計手法です(関連記事)。
●外群f3統計
f3型式(外群;A、B)の統計3集団検定です。f3値が高いほど、A集団とB集団との間の遺伝的類似性が高いことを示唆します。
●主成分分析(Principal Component Analysis 、略してPCA)
次元削減によりデータを単純化する統計的手法です。データは、データにより説明される分散の量(主成分と呼ばれます)に基づいて、新たな変数一式に再編成されます。古代DNA研究では、現代の人口集団が主成分分析に使用されることが多く、次にその上に古代の個体群が投影されます。
●qpAdm
n個の指定された供給源からの特定の標的における混合割合の推定を可能とする手法です。この手法は、f4統計を用いて特定の供給源と差次的に関連する参照人口集団一式に対して、標的と供給源を比較することにより、混合割合を測定します。ここでは、標的のf4統計は、標的が真に供給源と関連する祖先系統の混合である場合、供給源のf4統計の線形結合と仮定されます。
●qpGraph
混合図の推定です。これにより、特定の集団間一式の分岐と混合の関係の提示が可能となります。特定の混合図について、予測されるf2値とf3値とf4値は、特定の人口集団について観察されたf2値とf3値とf4値と比較され、モデルの可能性が判断されます。
●Treemix
アレル頻度相関を用いて最尤系統樹を推定する手法で、使用者により指定されたm回の移住事象の推測を可能とします。
◎用語
●混合(Admixture)
比較的短い進化的時間孤立していた2もしくはそれ以上の亜集団の個体の交雑です。
●祖先系統(祖先系譜、祖先成分、祖先構成、ancestry)
遺伝学的祖先系統は祖先から継承しているゲノムの範囲により定義され、簡単に言うと、個体の遺伝学的祖先系統は特定の祖先から継承されたヒト家系図を通る経路の部分集合です。個体群にとって、全個体にわたる一連の遺伝学的祖先系統はひじょうに複雑なので、実践的理由のため、研究者は集団間で観察された一般的な人口統計学的関係の要約に焦点を当てます。この「集団祖先系統」という概念は次に、ゲノム全体の変動パターンに応じて、1集団はさまざまな供給源人口集団の混合として表すことが可能である、と仮定されます。ヒトを対象とした場合、本来の遺伝学的祖先系統の定義に必要ではない、人口集団による分類や、地理的もしくは文化的情報で分類することによる系図的つながりから離れた個体群の文脈化に要注意です。
●有効人口規模(Effective population size、Ne)
理想化された任意交配集団における繁殖個体数です。Neは1集団に作用する遺伝的浮動の強度を決定します。
●精細なマッピング(Fine-mapping)
関連統計および連鎖不平衡パターンに基づいて原因となる可能性の高い多様体を特定するための、標的のゲノム領域における形質関連多様体の位置を精緻化する過程です。
●固定指数(Fixation index、略してFST)
2集団の遺伝的分化の程度です。より高いFST値は、より大きな人口構造を示します。
●遺伝子流動(Gene flow)
1集団から他の集団への個体およびその遺伝的物質の移動です。
●遺伝的勾配(Genetic cline)
特定の地理的領域にまたがるアレル頻度の段階的変化です。
●ハプロタイプ(Haplotype)
共に継承されていく関連する遺伝的多様体の一式です。
●同祖対立遺伝子(identity-by-descent、略してIBD)
かつて共通祖先を有していた2個体のDNAの一部が同一であることを示しており、IBD領域の長さは2個体が共通祖先を有していた期間に依存し、たとえばキョウダイよりもハトコの方が短くなります。これにより、4~60世代前の各世代での有効人口規模の推定が可能となります。
●インダストリー(industry)
旧石器時代の研究で使われることが多い用語で、狭義には、1遺跡における所与の考古学的層準に属する遺物群を指します。広義には、複数遺跡あるいは遺跡群で示される分布空間で複数の時期幅を有する特徴的遺物群に適用されます。日本では石器に対してのみ使用される傾向にありますが、骨角器や木器など人為的な考古資料全てを包含します。渡辺直経編(1997)『人類学用語辞典』(雄山閣)より引用しました。
●遺伝子移入(Introgression)
長い進化的時間孤立していたものの、まだ生殖的に隔離されていない、2もしくはそれ以上の集団の個体の交雑です。
●距離による孤立モデル(Isolation-by-distance model)
集団間の遺伝的分化が、空間的に限定された遺伝子流動、つまり距離の増加とともに移住率が減少することに起因して、地理的距離とともにどのように増加するのか、説明する理論的枠組みです。
●連鎖不平衡(Linkage disequilibrium、略してLD)
さまざまな遺伝子座における2つのアレル(対立遺伝子)の関連性です。
●メタ個体群(metapopulation)
アレル(対立遺伝子)の交換といった、ある水準で相互作用をしている、空間的に分離している同種の個体群の集団です。
●出アフリカ(Out-of-Africa、略してOOA)モデル
解剖学的現代人(現生人類)がアフリカで進化し、その後で世界の他地域に移住した、との仮説です。
●人口瓶首効果(Population bottleneck)
人口の有効規模を大きく減らす事象で、遺伝的浮動の増加につながります。
●人口構造(Population structure)
亜集団間のアレル頻度における系統的な違いです
●主成分(Principal components)
最重要な情報を保存しながら、標本間の分散を最大化し、データの次元を削減する、線形変換により得られる元々のデータ一式に由来する相関性のない変数の一式です。
●同型接合連続領域(runs of homozygosity、略してROH)
両親からそれぞれ受け継いだと考えられる同じアレルのそろった状態が連続するゲノム領域で、長いROHを有する個体の両親は近縁関係にある、と推測されます。ROHは人口集団の規模と均一性を示せます。ROH区間の分布は、有効人口規模と、1個体内のハプロタイプの2コピー間の最終共通祖先の時間を反映しています(関連記事)。
●連続創始者効果(Serial founder effect)
集団が連続的に少数の個体により創設されるさいの、遺伝的差異の連続的な喪失です。
●一塩基多型(Single Nucleotide Polymorphism、略してSNP)
一塩基多様体(Single Nucleotide Variant、略してSNV)とは、ゲノム塩基配列中に一塩基が変異した多様性が見られることで、変異の中で最も数が多く、検出が比較的容易です。同一のSNVを有する個体が集団中にある程度の割合(1~5%以上)で存在する場合には、一塩基多型(Single Nucleotide Polymorphism、略してSNP)とも呼ばれます。
●片親性遺伝標識(Uniparental markers)
組換えなしに(Y染色体ではごく一部の領域で組換えがあります)母方もしくは父方のみで伝わる、ミトコンドリアDNA(mtDNA)とY染色体です。
◎手法
●ADMIXTURE
個々のゲノムが共有される構成要素の混合としてモデル化できると仮定し、構成要素と関連づけることができる各ゲノムの割合を推定する統計的手法です。構成要素の数であるKは使用者により規定され、この手法は通常、複数のKにわたって使用されます。
●古代DNA捕獲
標本で見つかった全てのDNAを配列決定するのではなく、一塩基多型(SNP)の区画について濃縮する配列決定技術です。これにより、環境中のDNAの配列決定ではなく、対象種(この場合はヒト)に特異的なDNAを標的にできます。古代の標本における内在性DNAは少なく、対象種からDNAを効率的に回収できるので、この実験室手法は一般的です。いくつかのSNP区画がヒトで開発されてきており、より小さなものは大きなものの部分集合で、380万ヶ所と220万ヶ所と最も一般的な120万ヶ所です。
●D統計もしくはf4統計
比較的遺伝的類似性のある4集団検定です。典型的なのはD型式(A、B;C、外群)で、AとCに対するBとCとの間の共有されるアレル(対立遺伝子)の数を測定します。共有されるアレルの数が多いほど、第三集団と比較してのそれら2集団間のより高い遺伝的類似性を示唆します。
●diCal2
条件付き標本抽出分岐を用いて経時的な人口規模の変化や分岐時間の推定などの媒介変数を推定する、集団遺伝学的推定手法です。この手法では、完全に媒介変数の人口統計学的モデルの包摂が可能となり、移住と関連する媒介変数を可能とします。
●f4比統計
f4統計を用いて、混合事象から混合割合を推定するのに用いられる手法です。この手法は、標的集団もしくは他の供給源集団とも混合しなかった1供給源集団と密接に関連した標本の利用可能性を前提としています。
●fastsimcoal2
標本抽出集団の模擬実験と部位頻度範囲、および特定のモデルの媒介変数を推定する複合尤度法を用いる集団遺伝学的推定手法です。
●fineSTRUCTURE
一連の個体のうち高い類似性を有する連続した配列もしくはハプロタイプの区画を、同じ構成要素に割り当てる統計的手法です。「染色体画法」と呼ばれるこの手法により、各塩基対の物理的位置を用いて、より精細な規模で類似性を調べることができます。
●IBDmix
現代人の参照配列を利用せず、ネアンデルタール人(Homo neanderthalensis)など非現生人類ホモ属(古代型ホモ属、絶滅ホモ属)から現生人類への遺伝子流動を検出します。IBDmixでは、変異頻度やIBD(用語の項目を参照)領域の長さのような非現生人類ホモ属配列の特徴を用いて、共通配列が最近の混合なのか、それとも共通祖先に起因するのか、区別します(関連記事)。
●マッピング
多少の違いを許容しつつ、ゲノム配列内の類似性が高い処理を同定する情報処理です。
●momi2
特定のモデルで計算された部位頻度範囲を、標本抽出された集団一式の観察された部位頻度範囲と比較し、特定のモデルで媒介変数を推定する集団遺伝学的推定手法です。高品質のゲノムから推測された「足場(scaffold)」へと、低網羅率の個体群の配置を可能とします。
●MSMC(Multiple Sequentially Markovian Coalescent、複数連続マルコフ合祖)
ゲノムの小規模な一式に依存し、分岐時間を推定して個体群のさまざまな下位集団の内部および全体にわたる経時的な人口規模や合祖(合着)率など媒介変数を推定する、集団遺伝学的推定手法です。
●ノンパラメトリック
個体の組み合わせ全体で共有される同祖対立遺伝子(用語の項目を参照)である断片の分布を活用し、有効人口規模を推定します。パラメトリックとは、母集団の分布を仮定した統計手法です(関連記事)。
●外群f3統計
f3型式(外群;A、B)の統計3集団検定です。f3値が高いほど、A集団とB集団との間の遺伝的類似性が高いことを示唆します。
●主成分分析(Principal Component Analysis 、略してPCA)
次元削減によりデータを単純化する統計的手法です。データは、データにより説明される分散の量(主成分と呼ばれます)に基づいて、新たな変数一式に再編成されます。古代DNA研究では、現代の人口集団が主成分分析に使用されることが多く、次にその上に古代の個体群が投影されます。
●qpAdm
n個の指定された供給源からの特定の標的における混合割合の推定を可能とする手法です。この手法は、f4統計を用いて特定の供給源と差次的に関連する参照人口集団一式に対して、標的と供給源を比較することにより、混合割合を測定します。ここでは、標的のf4統計は、標的が真に供給源と関連する祖先系統の混合である場合、供給源のf4統計の線形結合と仮定されます。
●qpGraph
混合図の推定です。これにより、特定の集団間一式の分岐と混合の関係の提示が可能となります。特定の混合図について、予測されるf2値とf3値とf4値は、特定の人口集団について観察されたf2値とf3値とf4値と比較され、モデルの可能性が判断されます。
●Treemix
アレル頻度相関を用いて最尤系統樹を推定する手法で、使用者により指定されたm回の移住事象の推測を可能とします。
◎用語
●混合(Admixture)
比較的短い進化的時間孤立していた2もしくはそれ以上の亜集団の個体の交雑です。
●祖先系統(祖先系譜、祖先成分、祖先構成、ancestry)
遺伝学的祖先系統は祖先から継承しているゲノムの範囲により定義され、簡単に言うと、個体の遺伝学的祖先系統は特定の祖先から継承されたヒト家系図を通る経路の部分集合です。個体群にとって、全個体にわたる一連の遺伝学的祖先系統はひじょうに複雑なので、実践的理由のため、研究者は集団間で観察された一般的な人口統計学的関係の要約に焦点を当てます。この「集団祖先系統」という概念は次に、ゲノム全体の変動パターンに応じて、1集団はさまざまな供給源人口集団の混合として表すことが可能である、と仮定されます。ヒトを対象とした場合、本来の遺伝学的祖先系統の定義に必要ではない、人口集団による分類や、地理的もしくは文化的情報で分類することによる系図的つながりから離れた個体群の文脈化に要注意です。
●有効人口規模(Effective population size、Ne)
理想化された任意交配集団における繁殖個体数です。Neは1集団に作用する遺伝的浮動の強度を決定します。
●精細なマッピング(Fine-mapping)
関連統計および連鎖不平衡パターンに基づいて原因となる可能性の高い多様体を特定するための、標的のゲノム領域における形質関連多様体の位置を精緻化する過程です。
●固定指数(Fixation index、略してFST)
2集団の遺伝的分化の程度です。より高いFST値は、より大きな人口構造を示します。
●遺伝子流動(Gene flow)
1集団から他の集団への個体およびその遺伝的物質の移動です。
●遺伝的勾配(Genetic cline)
特定の地理的領域にまたがるアレル頻度の段階的変化です。
●ハプロタイプ(Haplotype)
共に継承されていく関連する遺伝的多様体の一式です。
●同祖対立遺伝子(identity-by-descent、略してIBD)
かつて共通祖先を有していた2個体のDNAの一部が同一であることを示しており、IBD領域の長さは2個体が共通祖先を有していた期間に依存し、たとえばキョウダイよりもハトコの方が短くなります。これにより、4~60世代前の各世代での有効人口規模の推定が可能となります。
●インダストリー(industry)
旧石器時代の研究で使われることが多い用語で、狭義には、1遺跡における所与の考古学的層準に属する遺物群を指します。広義には、複数遺跡あるいは遺跡群で示される分布空間で複数の時期幅を有する特徴的遺物群に適用されます。日本では石器に対してのみ使用される傾向にありますが、骨角器や木器など人為的な考古資料全てを包含します。渡辺直経編(1997)『人類学用語辞典』(雄山閣)より引用しました。
●遺伝子移入(Introgression)
長い進化的時間孤立していたものの、まだ生殖的に隔離されていない、2もしくはそれ以上の集団の個体の交雑です。
●距離による孤立モデル(Isolation-by-distance model)
集団間の遺伝的分化が、空間的に限定された遺伝子流動、つまり距離の増加とともに移住率が減少することに起因して、地理的距離とともにどのように増加するのか、説明する理論的枠組みです。
●連鎖不平衡(Linkage disequilibrium、略してLD)
さまざまな遺伝子座における2つのアレル(対立遺伝子)の関連性です。
●メタ個体群(metapopulation)
アレル(対立遺伝子)の交換といった、ある水準で相互作用をしている、空間的に分離している同種の個体群の集団です。
●出アフリカ(Out-of-Africa、略してOOA)モデル
解剖学的現代人(現生人類)がアフリカで進化し、その後で世界の他地域に移住した、との仮説です。
●人口瓶首効果(Population bottleneck)
人口の有効規模を大きく減らす事象で、遺伝的浮動の増加につながります。
●人口構造(Population structure)
亜集団間のアレル頻度における系統的な違いです
●主成分(Principal components)
最重要な情報を保存しながら、標本間の分散を最大化し、データの次元を削減する、線形変換により得られる元々のデータ一式に由来する相関性のない変数の一式です。
●同型接合連続領域(runs of homozygosity、略してROH)
両親からそれぞれ受け継いだと考えられる同じアレルのそろった状態が連続するゲノム領域で、長いROHを有する個体の両親は近縁関係にある、と推測されます。ROHは人口集団の規模と均一性を示せます。ROH区間の分布は、有効人口規模と、1個体内のハプロタイプの2コピー間の最終共通祖先の時間を反映しています(関連記事)。
●連続創始者効果(Serial founder effect)
集団が連続的に少数の個体により創設されるさいの、遺伝的差異の連続的な喪失です。
●一塩基多型(Single Nucleotide Polymorphism、略してSNP)
一塩基多様体(Single Nucleotide Variant、略してSNV)とは、ゲノム塩基配列中に一塩基が変異した多様性が見られることで、変異の中で最も数が多く、検出が比較的容易です。同一のSNVを有する個体が集団中にある程度の割合(1~5%以上)で存在する場合には、一塩基多型(Single Nucleotide Polymorphism、略してSNP)とも呼ばれます。
●片親性遺伝標識(Uniparental markers)
組換えなしに(Y染色体ではごく一部の領域で組換えがあります)母方もしくは父方のみで伝わる、ミトコンドリアDNA(mtDNA)とY染色体です。
この記事へのコメント