Google

蓝海人类学在线 Ryan WEI's Forum of Anthropology

 找回密码
 注册
查看: 7866|回复: 41

K在不同值时,东亚-西伯利亚诸民族admixture分析结果

[复制链接]
发表于 2016-2-23 21:41 | 显示全部楼层 |阅读模式
本帖最后由 Yungsiyebu 于 2016-2-23 22:04 编辑

这两天花时间学会了Plink基本操作,这样可以便捷的切割数据,为了减少庞大的运算量,仅留较为典型的蒙古人种样本进行admixture运算。此前,不会切割数据,加上黑人白人的数据,有一次K值加到最大,也仅能将东方人分为五六种成分,最后一次,机器跑了2天,给跑死机了,就好久再也没碰这个程序。现在学会了Plink的基本操作,这就可以自由一些了。刚刚把K=7时,即把蒙古人种样本切成七分时的结果跑完,不过,一点点更新。

先看K=2时的情况,避免太乱,一个地域的民族,我随机抽取一两例样本,列表如下。可以观察到,蒙古人种在两个极端案例切分时,东亚和东南亚两个族群的确大体聚类,而西伯利亚族群聚类,而北亚地区各民族,不同程度介于两个人群之间。暗合体质人类学,将蒙古人种分为大陆蒙古人种和海洋蒙古人种两个大类。

附件中为admixture的运算小结,总结了每种始祖成分之间的FST值,“FST值在遗传学分析中的意思是F-statistics(F分析)。Fst是表征亚群体间的遗传分化尺度。可以对不同人群之间遗传关系的远近进行量化。”

编号来源人群民族性别西伯利亚
POP0
东亚-东南亚
POP1
0GSM558788rasmussensiberiayukaghirsm0.999990.00001
0GSM558866rasmussensiberiachukchisf0.999990.00001
0GSM558713rasmussensiberiaketsf0.9878920.012108
0GSM558797rasmussensiberianganassansm0.9869490.013051
0GSM558851rasmussensiberiakoryaksf0.9531720.046828
0GSM558712rasmussensiberiaselkupsf0.9500350.049965
0GSM558715rasmussensiberiaaltaiansm0.8004330.199567
0GSM558815rasmussensiberiadolgansf0.787790.21221
0HGDP00946hgdpsiberiayakutm0.7277550.272245
0GSM558728rasmussensiberiaevenkisf0.7183160.281684
0GSM558745rasmussensiberiatuviniansf0.6873350.312665
0GSM558821rasmussensiberiaburyatsm0.5985710.401429
0GSM558857rasmussensiberiamongoliansm0.5891770.410823
0F071508xingsiberiaburyatu0.5490850.450915
0HGDP01237hgdpeast-asiahezhenm0.4088790.591121
0HGDP01212hgdpeast-asiaoroqenf0.3426980.657302
0HGDP01213hgdpeast-asiadaurm0.3129440.687056
0HGDP01249hgdpeast-asiaxibom0.2226630.777337
0HGDP01225hgdpeast-asiamongolam0.1916280.808372
0HGDP01347hgdpeast-asiatum0.1778790.822121
0HGDP01186hgdpeast-asiayim0.1079380.892062
0HGDP01291hgdpeast-asiahan-nchinaf0.100620.89938
NA18951NA18951hapmapeast-asiajapanesef0.0872690.912731
0HGDP01293hgdpeast-asiahan-nchinam0.0841620.915838
NA19066NA19066hapmapeast-asiajapanesem0.0800190.919981
NA17974NA17974hapmapeast-asiachinese-americansm0.0573970.942603
0HGDP01323hgdpeast-asialahuf0.036170.96383
0HGDP01198hgdpeast-asiamiaof0.0147160.985284
0HGDP01101hgdpeast-asiatujiam0.0094010.990599
NA18628NA18628hapmapeast-asiabeijing-chinesef0.000010.99999
0HGDP01308hgdpeast-asiadaim0.000010.99999
0HGDP01335hgdpeast-asiashef0.000010.99999
0SGVP00231sgvpeast-asiasingapore-chinesem0.000010.99999
K=2.jpg
发表于 2016-2-24 10:28 | 显示全部楼层
能估算两者的分离年代吗?
发表于 2016-2-24 10:38 | 显示全部楼层
实际上可以从你的数据看出,同样的民族,不同的国家。差异都非常明显,看来人群的混合无时不刻在发生,比如俄罗斯的蒙古人和中国的蒙古人的差距,
发表于 2016-2-24 10:40 | 显示全部楼层
你这个数据里的中国蒙古族比锡伯人更偏南,相对接近汉人,不知是测的哪里的蒙古族?
发表于 2016-2-24 10:56 | 显示全部楼层
北京人居然那么南,有点出乎我的意料。我一直都觉得北京土著在汉人中属于比较偏北相的。不知道这里测的北京人是土著还是从全国各地来北京的人。
发表于 2016-2-24 11:07 | 显示全部楼层
中间一个yi(彝族?)的比较特别,印象较深。
 楼主| 发表于 2016-2-24 11:14 | 显示全部楼层
你这个数据里的中国蒙古族比锡伯人更偏南,相对接近汉人,不知是测的哪里的蒙古族?
wanhuatong 发表于 2016-2-24 10:40

Mongola组来自呼伦贝尔。
发表于 2016-2-24 11:15 | 显示全部楼层
5# MNOPS 这个北京土著也得看多久的土著了 是明清时期从南方来的,还是自古就是北京扎根,上次新家坡测的结果也是偏南,北京作为三朝旧都,难免人群混杂。
 楼主| 发表于 2016-2-24 11:15 | 显示全部楼层
北京人居然那么南,有点出乎我的意料。我一直都觉得北京土著在汉人中属于比较偏北相的。不知道这里测的北京人是土著还是从全国各地来北京的人。
MNOPS 发表于 2016-2-24 10:56

用k7b计算,以鄂伦春和傣族为标尺,CHB的平均的北方因素是28%,而华北各省通常在35-40%之间,千人基因组CHB应当来源复杂。
 楼主| 发表于 2016-2-24 11:16 | 显示全部楼层
能估算两者的分离年代吗?
wanhuatong 发表于 2016-2-24 10:28

理论上,根据FST值应当可以大致估算出POP各组之间的分离年代,算法我还没有具体研究。
 楼主| 发表于 2016-2-24 11:21 | 显示全部楼层
中间一个yi(彝族?)的比较特别,印象较深。
紫蔻 发表于 2016-2-24 11:07

彝族样本,来自HGDP的数据。
发表于 2016-2-24 11:45 | 显示全部楼层
5# MNOPS 这个北京土著也得看多久的土著了 是明清时期从南方来的,还是自古就是北京扎根,上次新家坡测的结果也是偏南,北京作为三朝旧都,难免人群混杂。
wanhuatong 发表于 2016-2-24 11:15


明清时期的南方?南方指的是哪里,江苏吗?可我并不觉得江苏人很南相啊,甚至都不觉得江苏算南方。

就算是明清时期的南方,在北京住了那么久,跟当地的土著通婚了几百年,常染也应该变成北方了吧?

所以我还是觉得这份北京的样本应该包含了全国各地的样本,鱼龙混杂,所以才会导致那么偏南。如果测三代或三代以上的北京土著,说不定结果会很不一样。

新加坡样本偏南倒是不出乎我的意料,因为新加坡的华人移民大部分都来自华南沿海的福建和广东。

评分

1

查看全部评分

发表于 2016-2-24 11:49 | 显示全部楼层
本帖最后由 无诸王 于 2016-2-24 11:51 编辑
明清时期的南方?南方指的是哪里,江苏吗?可我并不觉得江苏人很南相啊,甚至都不觉得江苏算南方。

就算是明清时期的南方,在北京住了那么久,跟当地的土著通婚了几百年,常染也应该变成北方了吧?

所以我 ...
MNOPS 发表于 2016-2-24 11:45
他说的是新加坡人写的那篇文章,里边也把chb的数据拿去比对了,江苏汉和河南汉很接近的,chb北京汉则偏南,比江苏汉要南很多。。
 楼主| 发表于 2016-2-24 11:52 | 显示全部楼层
目前各组CHB,没有任何一个组标记是来自老北京样本的,都是随机采样,不分父母籍贯,以往老北京采样有高比例的F*, 包括G等西欧亚成分,千人基因组等样本都不是。
 楼主| 发表于 2016-2-24 11:59 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2016-2-24 16:35 编辑

更新一下K=3时的运算结果。Fst值可以观察到,Pop0和Pop1的关系非常近,值只有0.018,peak值都在东亚-东南亚诸民族,而POP0和PoP1,分别与pop2(peak值在西伯利亚)的差异都非常明显,其中pop0-pop2值为0.057,略近,pop1-pop2的值为0.061,略远。

值得一提的是,Pop0和Pop1的差异过小,同一民族样本普遍存在,甲样本pop0为主,乙样本则Pop1为主。区分度过低。
编号来源人群民族性别POP0POP1POP2
NA17974NA17974hapmapeast-asiachinese-americansm0.2411690.7459610.01287
NA18951NA18951hapmapeast-asiajapanesef0.0615310.9197970.018672
0HGDP01291hgdpeast-asiahan-nchinaf0.4764470.3349930.18856
0HGDP01101hgdpeast-asiatujiam0.1575710.8424190.00001
0HGDP01186hgdpeast-asiayim0.1342070.8657830.00001
0HGDP01198hgdpeast-asiamiaof0.7527590.2472310.00001
0HGDP01213hgdpeast-asiadaurm0.4322440.5513260.01643
0HGDP01225hgdpeast-asiamongolam0.1603870.8396030.00001
0HGDP01237hgdpeast-asiahezhenm0.2316980.7682920.00001
0HGDP01249hgdpeast-asiaxibom0.0905750.9094150.00001
0HGDP01212hgdpeast-asiaoroqenf0.1338590.8661310.00001
0HGDP01308hgdpeast-asiadaim0.1329260.8670640.00001
0HGDP01323hgdpeast-asialahuf0.9378740.0621160.00001
0HGDP01335hgdpeast-asiashef0.32310.6580950.018805
0HGDP01347hgdpeast-asiatum0.1442170.8557730.00001
0SGVP00231sgvpeast-asiasingapore-chinesem0.2185170.7307310.050752
0HGDP00946hgdpsiberiayakutm0.4395720.09150.468928
0F071508xingsiberiaburyatu0.2055860.7944040.00001
0GSM558712rasmussensiberiaselkupsf0.3749210.1449020.480177
0GSM558713rasmussensiberiaketsf0.3349750.2301930.434832
0GSM558715rasmussensiberiaaltaiansm0.220810.000010.77918
0GSM558728rasmussensiberiaevenkisf0.4077330.000010.592257
0GSM558745rasmussensiberiatuviniansf0.213630.1716110.614759
0GSM558788rasmussensiberiayukaghirsm0.1427990.0636420.793559
0GSM558797rasmussensiberianganassansm0.314070.2001290.4858
0GSM558815rasmussensiberiadolgansf0.2101950.000010.789795
0GSM558851rasmussensiberiakoryaksf0.0469390.0618710.891189
0GSM558857rasmussensiberiamongoliansm0.4148380.1021370.483025
0GSM558866rasmussensiberiachukchisf0.1901840.0577310.752085
K=3.jpg
发表于 2016-2-24 12:03 | 显示全部楼层
更新一下K=3时的运算结果。
           编号  来源  人群  民族  性别  POP0  POP1  POP3    NA17974  NA17974  hapmap  east-asia  chinese-americans  m  0.241169  0.745961  0.01287    NA18951  NA18951  hapm ...
Yungsiyebu 发表于 2016-2-24 11:59
k=3好像看不出什么规律啊?
 楼主| 发表于 2016-2-24 12:08 | 显示全部楼层
k=3好像看不出什么规律啊?
无诸王 发表于 2016-2-24 12:03

POP0和pop1的Fst值过低,种系区分度不明显。就是说,切成3种始祖成分,结果不理想,POP0和pop1很难彼此区分,太接近。
发表于 2016-2-24 12:23 | 显示全部楼层
本帖最后由 MNOPS 于 2016-2-24 12:26 编辑
目前各组CHB,没有任何一个组标记是来自老北京样本的,都是随机采样,不分父母籍贯,以往老北京采样有高比例的F*, 包括G等西欧亚成分,千人基因组等样本都不是。
Yungsiyebu 发表于 2016-2-24 11:52


嗯,这就比较符合我的推测了。与其说CHB是北京样本,倒不如说是代表了中国平均的水准,28%北方72%南方。有兴趣的可以用面部合成软件试一试,找三个蒙古人或西伯利亚人,再找七个东南亚人,把他们面部合成,估计最后结果就是中国人的大众类型。

至于老北京人群,我觉得有必要深入研究,说不定他们包含了更多西部和北部的因素。
 楼主| 发表于 2016-2-24 12:35 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2016-2-24 13:15 编辑

更新一下K=4时的结果。FST见附件图片。
POP0和POP2两种始祖成分组成东亚样本,FST值只有0.021,Pop2 peak在koryaks,Pop0在汉族,区分度也不是太高。与其他两种始祖成分则均相差较远。

POP1 peak值在楚克奇人,与其他三种始祖成分的FST值很大,在0.083-0.104之间,暗示是一支分离年代较远的始祖人群。

POP3 peak值在外蒙古,与POP0和POP2两个东亚成分相对略近,FST值分别为0.075和0.074,与Pop1 楚克奇的距离则达0.104,非常远。


编号来源人群民族性别Pop0Pop1Pop2Pop3
NA17974NA17974hapmapeast-asiachinese-americansm0.6847720.0039420.3112750.00001
NA18951NA18951hapmapeast-asiajapanesef0.3260030.0015340.6438670.028596
0HGDP01291hgdpeast-asiahan-nchinaf0.2944370.0197520.6858010.00001
0HGDP01101hgdpeast-asiatujiam0.2853570.0160090.6646690.033965
0HGDP01186hgdpeast-asiayim0.2851770.035050.535850.143923
0HGDP01198hgdpeast-asiamiaof0.2851130.0013610.5481380.165388
0HGDP01213hgdpeast-asiadaurm0.2847760.0196930.6955210.00001
0HGDP01225hgdpeast-asiamongolam0.2846010.000010.668990.046398
0HGDP01237hgdpeast-asiahezhenm0.2821830.0109740.6823310.024513
0HGDP01249hgdpeast-asiaxibom0.2813180.000010.7186620.00001
0HGDP01212hgdpeast-asiaoroqenf0.2744060.0217880.6489720.054834
0HGDP01308hgdpeast-asiadaim0.2395450.0211060.6900380.04931
0HGDP01323hgdpeast-asialahuf0.2150170.0965110.1993940.489078
0HGDP01335hgdpeast-asiashef0.2142380.1081490.1721420.505471
0HGDP01347hgdpeast-asiatum0.2137080.0506890.6898550.045749
0SGVP00231sgvpeast-asiasingapore-chinesem0.1618060.000010.8381740.00001
0HGDP00946hgdpsiberiayakutm0.213580.0167220.7696890.00001
0F071508xingsiberiaburyatu0.1133680.194450.000010.692172
0GSM558712rasmussensiberiaselkupsf0.0854640.0153220.0853580.813856
0GSM558713rasmussensiberiaketsf0.0854250.0252580.8893070.00001
0GSM558715rasmussensiberiaaltaiansm0.0845250.000010.9154550.00001
0GSM558728rasmussensiberiaevenkisf0.0798890.000010.9149190.005183
0GSM558745rasmussensiberiatuviniansf0.0701770.000010.9298030.00001
0GSM558788rasmussensiberiayukaghirsm0.0594420.000010.9405380.00001
0GSM558797rasmussensiberianganassansm0.0523440.0066470.9409990.00001
0GSM558815rasmussensiberiadolgansf0.0288060.0144330.9567510.00001
0GSM558851rasmussensiberiakoryaksf0.000010.000010.9943830.005597
0GSM558857rasmussensiberiamongoliansm0.000010.000010.0128280.987152
0GSM558866rasmussensiberiachukchisf0.000010.999970.000010.00001
K=4.jpg
 楼主| 发表于 2016-2-24 14:05 | 显示全部楼层
根据K=4时,四种始祖成分的FST,cluster建了一个树,如下图。
K=4 refremoved eastasia siberia 2.jpg
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|人类生物学在线 ( 苏ICP备16053048号 )

GMT+8, 2019-12-9 21:25 , Processed in 0.295164 second(s), 24 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表