Google

蓝海人类学在线 Ryan WEI's Forum of Anthropology

 找回密码
 注册
查看: 13032|回复: 265

阿穆尔河细石器猎人Mos5与HGDP蒙古人种样本比对分析

[复制链接]
发表于 2018-2-13 12:10 | 显示全部楼层 |阅读模式
本帖最后由 Yungsiyebu 于 2018-2-13 14:13 编辑

目的:

因为文献admixture运算深度不高,无法更细致的判断Devil样本与现代人群的关联性,尝试加大运算深度,获取更细分信息。另外,文献仅给出两个K值的结果,我们给出K值时的具体情况。另外,样本中加入Maya作为reference,考察阿穆尔河细石器猎人Devil是否与美洲印第安人有血统关联。

因古人基因组降解严重,覆盖位点较少,为减少不同芯片位点不同造成的折损,本分析仅录入HGDP数据。

数据:

阿穆尔河古dna:DevilsGate1 (Mos5)
Genome-wide data from two early Neolithic East Asian individuals dating to 7700 years ago
http://www.ebi.ac.uk/ena/data/view/PRJEB14817

HGDP
http://www.hagsc.org/hgdp/files.html

方法:

DevilsGate1(Mos5) Bam文件samtools获取常染色体reads信息,提取HGDP约60万array位点,其数据量最大的Mos5大约覆盖到4万位点。制作为ped/map文件,plink转为bed/fim/fam文件,并与hgdp的蒙古人种样本bed文件merge。admixture进行运算。

说明:

古人基因组在每个position上通常只覆盖到一个reads,通常文献的方法是默认为纯合子,可能会造成一定的人为drift现象,但因为是随机的,所以,影响通常认为不大。估计覆盖度约低,这种影响就会可能更大。
Genome-wide data from two early Neolithic East Asian individuals dating to 7700 years ago
To compare our sample to modern and ancient human genetic variation,
we called SNPs using the hg19 reference FASTA file at positions overlapping with the Human Origins (HO) reference panel (591,356 positions) (49) using SAMtools 1.2 (42). Bases were required to have a minimum mapping quality of 30 and base quality of 20; all triallelic SNPs were discarded. Because our low coverage does not provide sufficient information to infer diploid genotypes, a base was chosen with probability proportional to its depth of coverage. This allele was duplicated to form a homozygous diploid genotype, which was used to represent the individual at that SNP position (48). This method of SNP calling (referred to as the proportional method from now on) will artificially increase the appearance of drift on the lineage leading to
the ancient individual; however, this drift is not expected to be in any particular direction and, therefore, should not bias inferences about population relationships (3). A total of 35,903 positions in DevilsGate1 and 14,739 positions in DevilsGate2 were covered by at least one highquality read.
 楼主| 发表于 2018-2-13 12:22 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-2-13 12:33 编辑

首先看K=2时的结果。

Peak分别出现在Maya印第安人和东亚-东南亚人群。Mos5(*标记),表现出比蒙古人种更高的类印第安人因素。因为在文献中没有加入印第安人样本,这种观察无法体现。

我们关注K值增大后,这种类印第安成分是西伯利亚普遍存在的,还是的确Devil有更多一些类印第安人成分。

Pop0-Maya Pop1-Dai
0.416884 0.583116

Fst值结果如下:

Fst divergences between estimated populations:
    Pop0   
Pop0   
Pop1    0.105

注:HGDP的编号有些混乱,3个日本样本(J标记)编号与South.Han连在一起,图做出来才注意到,未重新排序。

另外,一个标记为日本的样本,却表现为典型的印第安人特征。
Mos5_hgdp_Mongoloid_K=2.jpg
 楼主| 发表于 2018-2-13 12:51 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-2-13 13:34 编辑

K=3时,Peak值分别出现在:

pop0pop1pop2
YakutDaiMaya


三种pop关系,如Fst值所示,虽然Yakut和Dai地理距离遥远,但还是要相对印第安人更近一些。

Fst divergences between estimated populations:
    Pop0    Pop1   
Pop0   
Pop1    0.044   
Pop2    0.107    0.109   

此时,Mos5样本的运算结果如下,可见更接近蒙古人种样本,但仍然有20%上下的类印第安人成分。而蒙古人种成分中,远没有西伯利亚族群那么北。


YakutDaiMaya
0.6355260.1579130.206561

这个K值非常接近K7b。我们扣除类Maya成分,折算Pop0:Pop1,Mos5结果介于鄂伦春和雅库特之间,与地理位置非常吻合。

NorthSorth
YakutDai
Mos50.794950.2051
Oroqen0.64760.3524
Daur0.49130.5087
Hezhe0.47330.5267
Mongola0.4320.568
Xibo0.38640.6136
Tu0.27080.7292
Japanese0.22950.7705
North Han0.17160.8284
Naxi0.15790.8421
Yi0.14520.8548
Tujia0.05080.9492
South Han0.043150.95685
Cambodians0.01660.9834
Miao0.012040.98796
Dai0.000010.99999
Lahu0.000010.99999
She0.000010.99999
Mos5_hgdp_Mongoloid_K=3.jpg
发表于 2018-2-13 13:03 | 显示全部楼层
4# Yungsiyebu
建议你把藏族加入看一下有什么不同~
 楼主| 发表于 2018-2-13 13:49 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-2-13 13:50 编辑

K=4时,Peak值出现在如下样本:

pop0pop1pop2pop3
MayaYakutLahuJapanese


Fst值如下,可见新出现的东亚成分(japanese),与西伯利亚和东亚南部距离相当,略接近西伯利亚。另外,南方pop出现在了西南Lahu。

    Pop0    Pop1    Pop2   
Pop0   
Pop1    0.108   
Pop2    0.130    0.068   
Pop3    0.109    0.044    0.048   


此时,Mos5结果如下,Mos5表现出非常高比例的类Lahu成分,值得在其后的细分结果中关注。

MayaYakutLahuJapanese
0.2424060.3407250.2032660.213603
Mos5_hgdp_Mongoloid_K=4.jpg
 楼主| 发表于 2018-2-13 13:53 | 显示全部楼层
K=5时,Peak值出现在如下样本中。

pop0pop1pop2pop3pop4
YakutJapaneseLahuMaya1Maya2


Maya内部分化,不多讨论。
Mos5_hgdp_Mongoloid_K=5.jpg
 楼主| 发表于 2018-2-13 13:58 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-2-13 14:15 编辑

K=6时,Peak值分别出现在如下样本:

pop0pop1pop2pop3pop4pop5
NaxiMayaOroqenYakutJapaneseLahu


西南样本分化为Naxi和Lahu,北亚样本分化为Oroqen和Yakut。

Fst值如下:

    Pop0    Pop1    Pop2    Pop3    Pop4   
Pop0   
Pop1    0.138   
Pop2    0.211    0.242   
Pop3    0.077    0.109    0.185   
Pop4    0.065    0.111    0.187    0.046   
Pop5    0.075    0.131    0.203    0.071    0.051   

此时,Mos5结果如下,可见在上一个K值时,很大比例落入类Lahu的成分,事实上,更接近西南藏缅Naxi纳西族。Mos5的细分成分中,以西南藏缅比例最高,雅库特和鄂伦春次之,东亚再次,拉祜族最低。

NaxiMayaOroqenYakutJapaneseLahu
0.3671260.2093380.1636020.1733590.0728280.013747

与Mos5,当前东北亚地区的北方民族,大多是类东亚(日本)成分占大头。这是一个非常值得关注的现象。尚不清楚是客观事实,还是降解造成低覆盖度的drift。如,一例随机的mongola样本。

NaxiMayaOroqenYakutJapaneseLahu
0.2205420.0266110.0319990.1299420.5140150.076892
Mos5_hgdp_Mongoloid_K=6.jpg
 楼主| 发表于 2018-2-13 14:04 | 显示全部楼层
4# Yungsiyebu
建议你把藏族加入看一下有什么不同~
imvivi001 发表于 2018-2-13 13:03

我会在其他panel中merge,古dna样本覆盖到的position有限,避免array位点不同折损,本分析只有hgdp。
发表于 2018-2-13 14:17 | 显示全部楼层
8# Yungsiyebu
小云同志,建议你不要再调高K值,你那个从HGDP下载的破覆盖率数据不足以支撑这么高K值兼小族群数的运算结果的,真的,会出现更多的乱码的~~
 楼主| 发表于 2018-2-13 14:20 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-2-13 14:35 编辑

HGDP的芯片数据质量很好, Illumina 650Y arrays,660918 markers。illumina芯片是非常可靠的。

从实践结果看,60万+snp,是可以区分畲、苗、南汉的水平的。很多merge后的panel做的分析,snp数量被压缩到10万以内,结果就很难保证细分深度了。

http://www.ranhaer.com/viewthread.php?tid=37483

admixture官方手册,对marker数量做过解释,区分大种系的内部差异,makers数量不宜低于10万。我的理解应当是越高越好,maf非常低的position,更可能区分大种系内部差异。

It is also noted in that paper that more markers are needed to perform adequate GWAScorrection than are needed to simply observe the population structure.As a rule of thumb, we have found that 10,000 markers suffice to perform GWAS correction6for continentally separated populations (for example, African, Asian, and European populationsFST > .05) while more like 100,000 markers are necessary when the populationsare within a continent (Europe, for instance, FST < 0.01).
发表于 2018-2-13 18:24 | 显示全部楼层
HGDP的芯片数据质量很好, Illumina 650Y arrays,660918 markers。illumina芯片是非常可靠的。

从实践结果看,60万+snp,是可以区分畲、苗、南汉的水平的。很多merge后的panel做的分析,snp数量被压缩到10万以内 ...
Yungsiyebu 发表于 2018-2-13 14:20
illumina芯片当然没有问题,不过之前我已经提醒你HGDP本身的数据质量,其实它的60万+未必比得上hapmap或千人组的30万+
 楼主| 发表于 2018-2-13 19:37 | 显示全部楼层
illumina芯片当然没有问题,不过之前我已经提醒你HGDP本身的数据质量,其实它的60万+未必比得上hapmap或千人组的30万+
imvivi001 发表于 2018-2-13 18:24


这不是信口胡说的,另外,1000G也不是30万,那是测序数据。
发表于 2018-2-13 20:48 | 显示全部楼层
13# Yungsiyebu
对HGDP早先收集的数据不能过于乐观,这是斯坦福人类基因中心关于使用这些数据时的提示:
Stanford HGDP SNP Genotyping Data

The genotypes were generated on Illumina 650Y arrays, with a GenCall Score cutoff of 0.25. Samples with an overall call rate < 98.5% were removed. No filtering of SNPs was done, so be aware that low quality SNPs are included in these files.
 楼主| 发表于 2018-2-14 12:35 | 显示全部楼层
13# Yungsiyebu
对HGDP早先收集的数据不能过于乐观,这是斯坦福人类基因中心关于使用这些数据时的提示:
Stanford HGDP SNP Genotyping Data

The genotypes were generated on Illumina 650Y arrays, with a  ...
imvivi001 发表于 2018-2-13 20:48

这说的是call rate < 98.5%被移除,就是检出率的问题,并不是说,芯片数据不准确。illumina芯片有66万+,扣除少量检出率低的marker,并没有太大影响总marker数量。
 楼主| 发表于 2018-2-14 12:43 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-2-14 12:44 编辑

K=7时,Peak值出现在如下样本。

pop0pop1pop2pop3pop4pop5pop6
YakutJapaneseMaya1Maya2CambodiansLahuNaxi/Oroqen


Fst值如下:

Fst divergences between estimated populations:
    Pop0    Pop1    Pop2    Pop3    Pop4    Pop5   
Pop0   
Pop1    0.045   
Pop2    0.177    0.179   
Pop3    0.110    0.112    0.131   
Pop4    0.073    0.055    0.199    0.133   
Pop5    0.101    0.079    0.227    0.161    0.089   
Pop6    0.105    0.101    0.233    0.167    0.115    0.146   

Mos5的运算结果如下:

pop0pop1pop2pop3pop4pop5pop6
YakutJapaneseMaya1Maya2CambodiansLahuNaxi/Oroqen
0.098830.1832030.1515660.1519240.0121260.0117090.390642

K=8时,Peak值出现在如下样本。

pop0pop1pop2pop3pop4pop5pop6pop7
Maya1Maya2LahuJapaneseDaiYakutNaxiOroqen


Fst值如下:

    Pop0    Pop1    Pop2    Pop3    Pop4    Pop5    Pop6   
Pop0   
Pop1    0.195   
Pop2    0.147    0.248   
Pop3    0.114    0.220    0.065   
Pop4    0.123    0.227    0.065    0.036   
Pop5    0.112    0.219    0.086    0.047    0.058   
Pop6    0.154    0.256    0.106    0.082    0.083    0.091   
Pop7    0.247    0.345    0.221    0.189    0.193    0.186    0.226  


Mos5的运算结果如下:



pop0pop1pop2pop3pop4pop5pop6pop7
Maya1Maya2LahuJapaneseDaiYakutNaxiOroqen
0.1177660.0558670.1986180.0746820.2856880.0735980.0720150.121766
Mos5_hgdp_Mongoloid_K=7.jpg
Mos5_hgdp_Mongoloid_K=8.jpg
发表于 2018-6-21 07:57 | 显示全部楼层
...

K=8时,Peak值出现在如下样本。
....

Mos5的运算结果如下:

pop0pop1pop2pop3pop4pop5pop6pop7
Maya1Maya2LahuJapaneseDaiYakutNaxiOroqen
0.1177660.0558670.1986180.0746820.2856880.0735980.0720150.121766

Mos5_hgdp_Mongoloid_K=7.jpg

Yungsiyebu 发表于 2018-2-14 12:43


终于可以为之前关于鬼门穴古人的‘南北成分’之争划上一个华丽的‘分页符’~
发表于 2018-6-21 13:03 | 显示全部楼层
我跟某人说了快一个月叫他把鬼门洞古人那篇文章的常染类聚分析图拿出来,可他就是不拿,因为那个类聚分析图上有他不想看到的东西,鬼门洞古人最接近现代通古斯人群而远离东南亚人群。

某人整天怼老永说老永的分析不准,但看到老永的分析对自己有利的时候却又支持老永,看来某人也只是个墙头草罢了。

我说的某人是谁,请那个人自己对号入座吧。
 楼主| 发表于 2018-6-21 13:09 | 显示全部楼层
amur的样本,请看k值在低值时的结果,文献没有加这部分内容,有高比例的类北极血统。
发表于 2018-6-21 13:13 | 显示全部楼层
18# Yungsiyebu

我就记得原文献上有一张图,是把鬼门洞古人的常染跟现代通古斯人群,日韩人群,东亚其他人群(中国境内的汉族和其他几个少数民族),还有东南亚人群对比的,结果在那张图上鬼门洞古人跟现代通古斯人群最类聚,最接近乌尔其人,比日韩还要北很多。

当然某人硬要说鬼门洞是傣族人我也没办法,有些人你永远也叫不醒。
 楼主| 发表于 2018-6-21 13:21 | 显示全部楼层
18# Yungsiyebu  

我就记得原文献上有一张图,是把鬼门洞古人的常染跟现代通古斯人群,日韩人群,东亚其他人群(中国境内的汉族和其他几个少数民族),还有东南亚人群对比的,结果在那张图上鬼门洞古人跟现代通古 ...
MNOPS 发表于 2018-6-21 13:13

ulchi主成分继承了amur新石器古人,但也有明显来自贝加尔湖北亚族群的影响。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|人类生物学在线 ( 苏ICP备16053048号 )

GMT+8, 2018-10-24 11:30 , Processed in 0.173062 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表