返回列表 回复 发帖

东北亚、东亚、东南亚族群内部的Admixture分析

本帖最后由 Yungsiyebu 于 2016-2-28 23:21 编辑

这几天分析了西伯利亚、东亚-东南亚族群的admixture的运算结果,可以明显的分线,东亚-东南亚内部有一种共同的始祖POP,西伯利亚族群最先分离。这样扣除西伯利亚族群,继续细分东亚-东南亚族群。
K=2时,POP0 peak在东北亚的日本、鄂伦春、呼伦贝尔蒙古、赫哲族、达斡尔族等人群,POP1 peak在新加坡马来人、泰国、iban、柬埔寨等人群,东亚诸民族介于二者之间,两种始祖成分的FST值为0.028。

详见表格:
K=2
TerritoryPerson IDEthnicityGenderPOP0POP1
southeast-asiaCAM11375khmer-cambodianu0.0954090.904591
southeast-asiaF066566thaiu0.0387160.961284
east-asiaHGDP00747japanesem0.999990.00001
east-asiaHGDP01095tujiam0.7010480.298952
east-asiaHGDP01179yim0.7613890.238611
east-asiaHGDP01189miaom0.6267960.373204
east-asiaHGDP01203oroqenm0.936330.06367
east-asiaHGDP01213daurm0.8804960.119504
east-asiaHGDP01223mongolaf0.8673270.132673
east-asiaHGDP01234hezhenf0.9162930.083707
east-asiaHGDP01243xibom0.662360.33764
east-asiaHGDP01287han-nchinaf0.8424590.157541
east-asiaHGDP01307daim0.4213510.578649
east-asiaHGDP01317lahum0.5223740.477626
east-asiaHGDP01327shem0.7087860.291214
east-asiaHGDP01337naxim0.7216570.278343
east-asiaHGDP01347tum0.8036330.196367
east-asiaNA17962chinese-americansf0.6796960.320304
east-asiaNA18524beijing-chinesem0.8459010.154099
east-asiaSGVP00002singapore-chinesem0.6804320.319568
southeast-asiaSGVP00141singapore-malaym0.0791190.920881
southeast-asiaSW009ibanu0.000010.99999
southeast-asiaVIET16vietnameseu0.4298380.570162
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2016-2-28 22:41 编辑

K=3时,POP0 peak依然东北亚区域,POP1 peak在东南亚民族,POP2 peak在东亚诸民族。三种始祖POP的关系,见下面的FST值,根据这个值,经典cluster分析得到的图谱如附件。东北亚POP0(1)和东亚POP2(3)的FST值更低,只有0.016,亲缘关系更近,东南亚POP1(2)更早分离。

Fstdivergencesbetweenestimatedpopulations:
Pop0Pop1
Pop000.045
Pop10.0450
Pop20.0160.034



K=3
TerritoryPerson IDEthnicityGenderPOP0POP1POP2
southeast-asiaCAM11375khmer-cambodianu0.0728590.7000620.227079
southeast-asiaF066566thaiu0.0134440.742860.243696
east-asiaHGDP00747japanesem0.9242970.000010.075693
east-asiaHGDP01095tujiam0.0979040.0806860.82141
east-asiaHGDP01179yim0.2534510.0754410.671108
east-asiaHGDP01189miaom0.0753590.1515650.773077
east-asiaHGDP01203oroqenm0.8876830.065810.046507
east-asiaHGDP01213daurm0.6107370.0576520.331611
east-asiaHGDP01223mongolaf0.5561290.0611360.382734
east-asiaHGDP01234hezhenf0.7621360.0557280.182135
east-asiaHGDP01243xibom0.6199670.273350.106683
east-asiaHGDP01287han-nchinaf0.2648610.0079940.727146
east-asiaHGDP01307daim0.000010.3127350.687255
east-asiaHGDP01317lahum0.0812870.2473060.671408
east-asiaHGDP01327shem0.0159130.0478660.936222
east-asiaHGDP01337naxim0.249460.1099950.640545
east-asiaHGDP01347tum0.4155210.0807870.503692
east-asiaNA17962chinese-americansf0.0642860.0899550.845758
east-asiaNA18524beijing-chinesem0.281290.0053840.713326
east-asiaSGVP00002singapore-chinesem0.079840.0904610.829698
southeast-asiaSGVP00141singapore-malaym0.0704960.7179450.21156
southeast-asiaSW009ibanu0.000010.7765210.223469
southeast-asiaVIET16vietnameseu0.0249710.3251710.649858
K=3 FST.jpg
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2016-2-28 23:11 编辑

然后,看一下K=4时的情况。

FST值如下图,根据数值绘制的cluster图,见附件。可以观察到:POP0(1、汉、畲、苗)和POP3(4、日本)的亲缘关系更近,然后是POP2(3、鄂伦春、蒙古),最后是POP1(2东南亚诸民族)。

Pop0Pop1Pop2
Pop0
Pop10.045
Pop20.0460.092
Pop30.0160.0560.038


K=4
TerritoryPerson IDEthnicityGenderPOP0POP1POP2POP3
1、汉、畲、苗2、泰、柬埔寨、马来3、鄂伦春、蒙古4、日本
southeast-asiaCAM11375khmer-cambodianu0.257530.6042850.1381750.00001
southeast-asiaF089863thaiu0.6048410.3723290.022820.00001
east-asiaHGDP00773japanesef0.0844380.025890.0047690.884903
east-asiaHGDP00774hanm0.8585690.079030.0530.009402
east-asiaHGDP01095tujiam0.8171720.0542350.0503540.078239
east-asiaHGDP01179yim0.5782210.0755960.3461730.00001
east-asiaHGDP01198miaof0.7242860.1255650.0913690.05878
east-asiaHGDP01222daurf0.1448030.0628970.5635940.228706
east-asiaHGDP01223mongolaf0.3360380.0480850.4349340.180942
east-asiaHGDP01242hezhenf0.175670.0636940.5143580.246278
east-asiaHGDP01243xibom0.0354530.2458650.5865910.13209
east-asiaHGDP01296han-nchinam0.5385360.0383620.3418390.081263
east-asiaHGDP01307daim0.7411020.2468760.000010.012013
east-asiaHGDP01326lahum0.6357130.2003790.1638980.00001
east-asiaHGDP01345naxif0.6497480.0219640.3282770.00001
east-asiaHGDP01356tuf0.3952920.0845890.4532790.06684
east-asiaNA18739beijing-chinesef0.6823820.000010.2262960.091312
east-asiaSGVP00002singapore-chinesem0.8379760.059970.0413550.0607
southeast-asiaSGVP00592singapore-malayf0.2883730.6079360.000010.103681
southeast-asiaSW009ibanu0.3138910.6474480.000010.038652
southeast-asiaVIET16vietnameseu0.6827190.2565070.000010.060764
K=4 FST.jpg
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2016-2-29 09:29 编辑

K=5时的情况,可以看到东南亚族群内部的分化,POP2(3)peak值在泰国,但只是部分样本高频。


K=5
EthnicityGenderPOP0POP1POP2POP3POP4
1、马来、Iban2、鄂伦春、蒙古、赫哲3、泰国4、日本5、汉、畲、苗
khmer-cambodianu0.6288480.1124910.1774070.000010.081244
thaiu0.4317240.000010.1036620.000010.464594
hanm0.1396160.0432110.0200890.0134740.78361
tujiam0.1291780.0538950.000010.0747850.742131
yif0.102360.3890280.0069970.0210280.480587
miaom0.2125180.0941570.000010.0199670.673348
oroqenf0.0755140.6331760.0115320.1373710.142406
daurm0.0526990.7223970.000010.000010.224884
mongolaf0.000010.4110470.0648310.0595960.464516
hezhenf0.0402950.8153740.0186330.0557990.069899
xibof0.017410.5236090.0443250.0920060.322651
han-nchinaf0.000010.3472480.0236020.000010.62913
daif0.3688070.000010.0281160.000010.603057
lahum0.3007340.128640.0101180.0065360.553972
shef0.0755780.0431980.0145360.0847020.781986
naxim0.1464060.3487370.000010.000010.504837
tuf0.0048210.4767370.083160.0316270.403655
japaneseu0.000010.0309860.0151640.926040.0278
chinese-americansm0.1331360.0298870.000010.061910.775058
beijing-chinesef0.000010.2545440.000010.070840.674596
singapore-chinesem0.1446150.0548130.000010.0533560.747206
singapore-malayf0.7313020.000010.0988060.0910720.078811
ibanu0.9189760.0048030.000010.060750.01546
vietnameseu0.3473870.000010.0227140.0667350.563153

K=5
Person  IDEthnicityGenderPOP0POP1POP2POP3POP4
1、马来、Iban2、鄂伦春、蒙古、赫哲3、泰国4、日本5、汉、畲、苗
F066566thaiu0.2904890.000010.5454720.000010.164019
F066571thaiu0.000010.000010.999960.000010.00001
F066579thaiu0.4943750.203540.2612750.000010.040801
F066580thaiu0.4518990.2233020.2401710.0581680.026461
F066582thaiu0.5122950.1647270.3229580.000010.00001
F066585thaiu0.000010.000010.999960.000010.00001
F066586thaiu0.1040440.000010.8445490.000010.051387
F066599thaiu0.1950530.195030.6098970.000010.00001
F066600thaiu0.000010.000010.999960.000010.00001
F066607thaiu0.000010.000010.999960.000010.00001
F066608thaiu0.000010.000010.999960.000010.00001
F066609thaiu0.2254760.0555460.3746510.1025640.241763
F066611thaiu0.1328590.000010.750260.0852810.03159
F066612thaiu0.4520030.2053440.3426330.000010.00001
F066613thaiu0.000010.000010.9762250.0237450.00001
F088094thaiu0.5218310.174760.2523560.0510420.00001
F088126thaiu0.4562640.0748690.1247190.000010.344138
F089307thaiu0.4245670.0486610.1840530.000010.342709
F089318thaiu0.4523160.0858030.1374370.0225790.301865
F089359thaiu0.471540.000010.1595890.0046940.364166
F089379thaiu0.5127720.1337890.156510.000010.196918
F089398thaiu0.3113210.0979130.1533150.0224990.414952
F089408thaiu0.4746690.1474560.0942940.0123930.271189
F089863thaiu0.4317240.000010.1036620.000010.464594
K=5 FST 2.jpg
K=5 FST.jpg
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
K=6时,Peak在Iban的POP2分离出来。

K=6
Person  IDEthnicityGenderPOP0POP1POP2POP3POP4POP5
1、日本2、鄂伦春、赫哲、蒙古、达斡尔3、Iban、马来4、泰国一组5、泰国二组、马来就、柬埔寨6、汉、畲、苗
CAM11375khmer-cambodianu0.000010.0277710.4402520.0504130.372140.109414
F089863thaiu0.000010.000010.316220.0371830.2024850.444092
HGDP00773japanesef0.851140.0215120.0548080.0295420.000010.042989
HGDP00774hanm0.0059560.0785870.144610.0329110.000010.737925
HGDP01104tujiam0.0355850.1788840.0088980.0674280.000010.709194
HGDP01179yim0.000010.3823660.0306620.0154930.0841280.487341
HGDP01198miaof0.0642650.0818420.1156870.0139260.0845560.639724
HGDP01203oroqenm0.000010.9258310.018760.000010.0553790.00001
HGDP01222daurf0.1034680.696960.0291350.000010.0881470.082281
HGDP01223mongolaf0.1135070.5090690.0084830.0296530.0574880.2818
HGDP01242hezhenf0.1067930.6735390.0900550.000010.047710.081892
HGDP01243xibom0.0727580.57940.000010.0227090.3142310.010892
HGDP01296han-nchinam0.0452640.385220.000010.0047940.0883020.47641
HGDP01307daim0.0091430.000010.3056790.023130.0597140.602323
HGDP01326lahum0.000010.1714150.1994970.0003120.1245220.504244
HGDP01327shem0.000010.092160.0977840.000010.000010.810025
HGDP01346naxif0.000010.382740.0312620.0279720.1469290.411087
HGDP01347tum0.0109160.4434160.000010.0550330.0962950.39433
NA17962chinese-americansf0.000010.1298440.0665510.0084780.0546490.740467
NA18649beijing-chinesef0.1947320.2709390.000010.000010.0612350.473074
SGVP00438singapore-chinesem0.0837380.0505980.0506680.0175130.000010.797473
SGVP00443singapore-malaym0.1078390.000010.3766260.0010150.2952670.219244
SW152ibanu0.000010.000010.811030.000010.1265690.062372
VIET41vietnameseu0.0538310.000010.260930.004170.1126170.568443
K=6 FST 6.jpg
K=6 FST 2.jpg
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
K=5时的情况,可以看到东南亚族群内部的分化,POP2(3)peak值在泰国,但只是部分样本高频。


K=5 EthnicityGenderPOP0POP1POP2POP3POP4 1、马来、Iban2、鄂伦春、蒙古、赫哲3、泰国4、日本5、汉、畲、苗 khmer- ...
Yungsiyebu 发表于 2016-2-29 09:16
peak值在泰国? 你确定自己木有看花眼?
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
应当把分析因素驱动值写出来。
毕竟单纯比较是需要考虑加权的,而这个加权是见人见智的。
混合分析的模型很简单 ,如果不需要很精确的话,也只要建立R-V分析数学模型就好了。
重要的是理解背后关系式的分布涵义。
应当把分析因素驱动值写出来。
毕竟单纯比较是需要考虑加权的,而这个加权是见人见智的。
混合分析的模型很简单 ,如果不需要很精确的话,也只要建立R-V分析数学模型就好了。
重要的是理解背后关系式的分布涵义。
风火如初 发表于 2016-3-1 16:05
admixture只录入K值,其他都是自动生成的计算结果,没有其他人为设置的权重。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
    peak值在泰国? 你确定自己木有看花眼?
imvivi001 发表于 2016-3-1 02:25
因为K值增加这个程度,泰国组已经明显观察到内部分野,随机抽了一例泰国样本,没有抽到peak所在样本。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
您好,网上查资料看到您的帖子,非常激动,终于找到有人做的这么专业了。我也在学习做祖源分析,关于admixture有一些问题搞不懂,由于身边没有人熟悉这方面的,所以想请教一下您。首先是admixture的运行结果,pop0,pop1...能代表具体的人群吗,比如pop0代表东亚,pop1代表南亚,这些标签是自己加上去吗?是如何加上去的?另外就是如果计算某个体的祖源成分,是不要把所有的数据集+个体的基因型再次运行admixture程序?初次学习,可能知识不是很充分,麻烦您了!
泰国,马来,柬埔寨可能都有些和印度次大陆共享的成分。锡伯,蒙古乃至雅库特可能都有不低的西欧亚成分。日本混了日本土著。都可能影响到遗传距离的计算。
如果能直接用傣族,水族,黎族这些来代表南方民族就好了。东北亚和北亚的土著倒是没想到哪个可以当代表的。
没啥事
泰国,马来,柬埔寨可能都有些和印度次大陆共享的成分。锡伯,蒙古乃至雅库特可能都有不低的西欧亚成分。日本混了日本土著。都可能影响到遗传距离的计算。
如果能直接用傣族,水族,黎族这些来代表南方民族就好了。 ...
litis 发表于 2017-3-4 22:30
admixture不存在以谁为代表的问题,只是根据k值对ref样本和目标样本进行族源切分,这跟neighbor joinging等分析方法人为设定outgroup作为root是不一样的。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
是不是由于历史的原因柬埔寨人中有相对突出的南亚成分,就算跟其它东南亚国家相比?
admixture不存在以谁为代表的问题,只是根据k值对ref样本和目标样本进行族源切分,这跟neighbor joinging等分析方法人为设定outgroup作为root是不一样的。
Yungsiyebu 发表于 2017-3-4 22:58
小永终于觉悟了。以前还和我争是把某族设置为100%云云。
从K=3那张图来看,beijing-chinese(北京人男性)和han-nchina(北方汉人女性)比chinese-americans(华裔美国人女性)和singapore-chinese(华裔新加坡人男性)明显多了不少东北亚pop0的成分。这可以看作是南北汉之间的差异。
从K=3那张图来看,beijing-chinese(北京人男性)和han-nchina(北方汉人女性)比chinese-americans(华裔美国人女性)和singapore-chinese(华裔新加坡人男性)明显多了不少东北亚pop0的成分。这可以看作是南北汉之间的 ...
MNOPS 发表于 2017-4-8 17:03
可以这样认为
K=6时,Peak在Iban的POP2分离出来。

            K=6    Person  ID  Ethnicity  Gender  POP0  POP1  POP2  POP3  POP4  POP5          1、日本  2、鄂伦春、赫哲、蒙古、达斡尔  3、Iban、马来  4、泰国一组   ...
Yungsiyebu 发表于 2016-2-29 09:58
POP5看不到。

没有藏缅系的对比,看不到东西差异。
其实取样也很重要。汉族可以考虑分为华北组、华中组、华南组、华东组、西北组、西南组。
物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后国治,国治而后天下平...
http://blogs.discovermagazine.co ... -step/#.WRe5eDeR1c7
Analyzing ancestry with ADMIXTURE, step by step
手把手教你做ADMIXTURE,有精力的网友可以尝试玩玩。
http://blogs.discovermagazine.com/gnxp/2011/03/analyzing-ancestry-with-admixture-step-by-step/#.WRe5eDeR1c7
Analyzing ancestry with ADMIXTURE, step by step
手把手教你做ADMIXTURE,有精力的网友可以尝试 ...
guwei0001 发表于 2017-5-14 10:02
这个要学学
返回列表
baidu
互联网 www.ranhaer.org