返回列表 回复 发帖

关于古中原和古华北类型的大数据分析,PCA、欧式距离、聚类图的正确解读

本帖最后由 隔壁老王 于 2018-1-26 18:11 编辑

本人的分析,从来都是提供数据的,也欢迎大家验证,而不是象某些人一样,拿不出数据来。
以下是分析依据的数据:
人群为29个,其中古中原类型20个,古华北类型9个,变量为颅骨测量值和指数共计14个。

颅长颅宽颅高上面高鼻宽鼻高眶宽眶高总面角颅长宽指数颅长高指数颅宽高指数鼻指数眶指数
01(中原)宝鸡北首岭仰韶7100-5800180.22 143.25 141.55 72.66 27.29 52.13 43.60 33.90 82.35 79.34 78.73 98.80 52.50 77.98
02(中原)关中半坡横阵6800-6500180.40 144.80 141.40 72.00 27.50 53.60 43.40 32.90 80.40 80.50 77.90 96.10 49.90 76.10
03(中原)关中元君庙6800-6300178.84 140.69 144.30 77.23 28.52 53.51 42.92 33.05 83.61 78.50 80.43 103.90 53.40 77.02
04(中原)豫南下王岗6600-6000175.75 146.38 147.08 71.06 27.20 53.68 41.38 32.93 84.90 83.24 84.59 101.02 50.05 79.26
05(中原)大汶口王因6500-5500180.50 147.30 145.70 75.00 27.70 56.10 45.90 35.80 85.00 81.61 80.73 99.04 49.43 78.06
06(中原)关中姜寨二期5500-5000186.05 142.76 145.43 75.82 28.36 53.55 43.55 32.73 81.83 77.20 75.80 101.34 53.26 75.26
07(中原)大汶口西夏侯5100-4400176.22 143.94 147.72 74.53 27.66 57.12 44.22 34.34 84.38 81.97 83.91 105.07 48.46 77.97
08(中原)豫西庙底沟二期4900-4800179.43 143.75 143.17 73.48 27.31 53.99 41.75 32.42 85.75 80.31 77.64 99.47 50.15 77.71
09(中原)晋南陶寺4500-4100184.73 141.93 144.04 73.92 27.23 54.45 44.80 32.79 84.86 76.93 77.64 102.06 49.99 74.42
10(中原)晋北游邀4000-3500183.65 140.65 142.13 73.95 26.79 53.10 44.42 34.08 84.44 76.73 77.15 101.02 50.52 76.73
11(中原)薛村3500-3300177.50 138.00 139.20 76.50 26.00 54.00 42.32 34.70 82.00 77.75 78.42 100.87 48.15 81.99
12(中原)西北冈祭祀坑Ⅳ+Ⅴ组3300-3100181.50 138.07 138.67 72.62 26.71 52.85 41.29 32.97 84.91 76.08 76.42 100.83 50.53 79.96
13(中原)殷墟中小墓②组3300-3100184.03 140.13 140.32 73.81 26.99 53.38 42.43 33.55 83.81 76.50 76.09 99.35 50.98 78.59
14(中原)大司空3300-3100184.00 137.00 140.50 74.90 28.00 53.50 42.00 31.25 85.70 74.47 76.31 102.48 52.34 75.00
15(中原)陕西西村3100-2800180.63 136.81 139.29 72.60 27.74 51.61 42.48 33.62 81.05 75.75 77.16 102.04 53.84 79.25
16(中原)晋南曲村3100-2800183.26 141.56 141.30 73.55 27.16 53.99 44.45 34.21 85.58 77.30 77.18 99.68 50.52 77.05
17(中原)晋南上马3100-2800181.60 143.40 141.10 75.00 27.30 54.40 42.50 33.50 82.40 78.96 77.70 98.40 50.18 78.82
18(中原)碾子坡西周组3100-2800183.94 142.85 144.12 71.76 26.02 54.54 43.05 32.49 81.50 77.23 79.01 101.58 47.69 74.78
19(中原)临潼新丰2200-2100182.50 141.70 142.90 75.60 26.50 55.70 43.70 34.00 83.70 77.30 76.80 99.50 47.70 79.30
20(中原)秦陵山任窑2200-2100190.40 139.30 141.70 76.20 24.60 57.30 44.10 35.40 84.00 73.10 75.50 102.30 43.10 83.00
21(华北)姜家梁约6800178.27 134.20 138.10 75.53 27.04 55.58 44.41 33.39 82.59 75.76 78.74 102.33 49.00 77.39
22(华北)庙子沟5500177.63 137.03 140.93 77.22 26.23 52.63 43.93 32.93 82.33 77.22 79.57 102.95 49.90 74.96
23(华北)陕北寨峁4800-4100180.74 138.20 133.95 75.89 25.75 51.75 47.74 33.38 83.14 76.43 74.00 96.86 49.93 79.97
24(华北)内蒙朱开沟4200-3600179.07 139.89 131.81 71.77 26.97 52.35 43.94 33.36 87.33 77.58 73.61 98.75 51.74 76.00
25(华北)蔚县三关3100175.11 142.37 138.58 72.97 25.96 52.79 42.44 32.66 87.10 81.32 79.53 98.09 49.39 77.05
26(华北)毛饮A组2500-2300182.04 142.02 136.88 74.50 25.97 55.10 43.85 33.88 86.00 78.10 75.54 96.63 47.21 77.41
27(华北)毛饮B组2500-2300182.20 139.76 142.72 74.26 26.84 54.70 42.91 33.70 83.55 76.79 78.38 101.57 49.09 78.73
28(华北)内蒙毛庆沟2500-2300179.86 143.27 136.50 74.55 25.89 54.94 43.64 33.18 88.00 76.13 75.89 95.59 47.37 76.54
29(华北)冀北白庙①组2500-2300185.38 139.88 146.50 76.00 26.30 54.63 42.80 33.13 87.85 75.32 79.09 104.83 48.15 77.43
2

评分次数

PCA分析,很多论坛上的人把象限图中两个点的直线距离作为亲缘关系的标准,比如论坛上某网友的解读(虽然他一直不能拿出数据),问题很大,因为PCA分析下,最大的两个主成分,他们的负荷是不同的,只有当第一主成分和第二主成分负荷相同时,直线距离才有意义,这一点某网友是不懂的。
如第一主成分贡献最大,则第二主成分的不同其实没有太大价值,正是由于这个原因,所以小Y很多象限图中,实际上各个人群第一主成分是基本相同的,第二主成分有变化,所谓他就错误的解读为两个差异很大,被替代了等等。
另外,如果主成分很多,由于二维图的局限性,所以第3~N的主成分实际没有展示出来,可能会出现象限图上很接近,但实际差异巨大的情况。
要解决这一问题,可以逐一分析主成分,也可以结合欧式距离分析。
我们依次来正确解读PCA分析。
从上述数据中,提取三个主成分,数据如下:
成份矩阵(a)
成份
123
01(中原)宝鸡北首岭仰韶7100-58000.944-0.0850.192
02(中原)关中半坡横阵6800-65000.827-0.0650.297
03(中原)关中元君庙6800-63000.915-0.315-0.121
04(中原)豫南下王岗6600-60000.71-0.5680.318
05(中原)大汶口王因6500-55000.925-0.1540.288
06(中原)关中姜寨二期5500-50000.9450.134-0.097
07(中原)大汶口西夏侯5100-44000.745-0.6260.108
08(中原)豫西庙底沟二期4900-48000.95-0.1480.222
09(中原)晋南陶寺4500-41000.9160.086-0.077
10(中原)晋北游邀4000-35000.9770.142-0.089
11(中原)薛村3500-33000.81-0.308-0.149
12(中原)西北冈祭祀坑Ⅳ+Ⅴ组3300-31000.9040.114-0.136
13(中原)殷墟中小墓②组3300-31000.960.24-0.058
14(中原)大司空3300-31000.8580.179-0.332
15(中原)陕西西村3100-28000.832-0.004-0.311
16(中原)晋南曲村3100-28000.9750.1710.036
17(中原)晋南上马3100-28000.9630.0340.154
18(中原)碾子坡西周组3100-28000.942-0.022-0.038
19(中原)临潼新丰2200-21000.970.093-0.005
20(中原)秦陵山任窑2200-21000.7270.37-0.303
21(华北)姜家梁约68000.44-0.182-0.822
22(华北)庙子沟55000.802-0.357-0.305
23(华北)陕北寨峁4800-41000.630.5870.12
24(华北)内蒙朱开沟4200-36000.3140.5980.403
25(华北)蔚县三关31000.502-0.610.514
26(华北)毛饮A组2500-23000.8510.3580.309
27(华北)毛饮B组2500-23000.980.002-0.16
28(华北)内蒙毛庆沟2500-23000.7090.2930.503
29(华北)冀北白庙①组2500-23000.9310.063-0.264
提取方法 :主成份。
a. 已提取了 3 个成份。
本帖最后由 隔壁老王 于 2018-1-26 18:31 编辑

首先看第1主成分,中原组平均0.898,华北组平均0.688,存在明显差异。
从数值上看,第1主成分在中原组不同时期非常稳定,但在华北组不同时期,呈现逐步上升的过程,因此可以认定,第1主成分对于华北人群属于外来因素,尤其是周代(战国)上升到0.868,显然和中原各国的移民有关。
因此,第1主成分的成因,明细与中原组关系更密切,甚至可以与常染色体东亚成分有关,值得关注的是,中原组中,主成分1最低的可能与大汶口有关,即下王岗(0.710)和西夏侯(0.745),另外秦王陵的任窑组也比较低(0.727),与另一组秦代临潼新丰差异巨大(0.970)。

中原组新石器青铜早期商代周代秦代
第1主成分0.870 0.947 0.883 0.928 0.848
第2主成分-0.228 0.114 0.056 0.035 0.232
第3主成分0.151 -0.083 -0.168 0.039 -0.154
华北组新石器青铜早期商代周代秦代
第1主成分0.621 0.472 0.502 0.868 -
第2主成分-0.269 0.593 -0.610 0.179
第3主成分-0.5640.2620.5140.097

关于中原类型向长城沿线的移民,以战国时期最为显著,可以先下图



第一主成分.jpg
长城沿线中原类型移民.jpg
1

评分次数

本帖最后由 隔壁老王 于 2018-1-26 18:24 编辑

第二主成分,中原组平均0.036,华北组平均0.836,从数值上看,均比较小,但华北组更加显著。
分时期看,中原组和华北组波动规律为,表现为青铜早期都明显上升,但华北组更剧烈,商代都明显下降,周代中原组再次下降,而周代华北组则再次上升。
从这些规律看,我个人判断,第2主成分可能和长城沿线古人群有关(最高为朱开沟0.598),这一人群在青铜早期出现爆发,对华北人群影响很大,对中原人群影响较小但也不可忽视,商代影响又掉头向下,周代中原进一步萎缩,但华北组区域出现复苏,与历史记载基本相当。

第3主成分,中原组平均-0.005,华北组平均0.033。这一人群与华北组关系更密切,但波动规律与第2主成分不同。
分时期看,第3主成分在中原组不同时期一直趋近于0,可以认为基本无影响,但华北组在青铜时期和商代非常活跃,从历史记载看,个人认为可能与中亚区域来到的西方成分有关,难道是Q人群?

中原组新石器青铜早期商代周代秦代
第1主成分0.870 0.947 0.883 0.928 0.848
第2主成分-0.228 0.114 0.056 0.035 0.232
第3主成分0.151 -0.083 -0.168 0.039 -0.154
华北组
第1主成分0.621 0.472 0.502 0.868 -
第2主成分-0.269 0.593 -0.610 0.179
第3主成分-0.5640.2620.5140.097
1

评分次数

应该看到,三个主成分中,第一主成分是中原人群和华北人群最重要的成分,占据了最大负荷,第2、第3主成分是次要成分,这种构成与东亚人群的常染色体构成较为匹配。



29个人群.jpg
由于PCA分析中,由于主成分比较多时,尤其是不同成分负荷较为接近时,无法从二维空间进行展示,容易被很多人错误解读,而欧式距离则准确的多。

欧式距离可以采用相关矩阵和不相关矩阵,其中采用不相关矩阵的,数值接近0的关系最近,这一点论坛上比如小Y等人的解读有误,他因为他所用的软件提供的是相关矩阵,所以他误认为不相关矩阵也是越大越接近,他这种解读水平让人无语。
本帖最后由 隔壁老王 于 2018-1-26 18:23 编辑

用全部颅骨数据,得到欧式距离如下:(我的数据都是提供展示的,下同)

超过字数上限了,修改一下格式
调整大小 欧式距离.jpg
从商人和其他人群的欧式距离看,商人河北本地人群关系最近,其次为豫西、关中人群,与华北人群关系较远,与大汶口相关的三个人群关系最远。


11:11(中原)薛村3500-3300                   12:12(中原)西北冈祭祀坑Ⅳ+Ⅴ组3300-3100    13:13(中原)殷墟中小墓②组3300-3100         14:14(中原)大司空3300-3100                 
1:01(中原)宝鸡北首岭仰韶7100-5800         10.2328.8477.09811.605
2:02(中原)关中半坡横阵6800-6500           12.54811.829.48314.241
3:03(中原)关中元君庙6800-6300             10.67211.09910.46610.453
4:04(中原)豫南下王岗6600-6000             16.0717.17516.89619.738
5:05(中原)大汶口王因6500-5500             14.52515.46813.0816.995
6:06(中原)关中姜寨二期5500-5000           15.00112.1638.359.6
7:07(中原)大汶口西夏侯5100-4400           14.73517.16916.7318.303
8:08(中原)豫西庙底沟二期4900-4800         10.6969.328.17711.611
9:09(中原)晋南陶寺4500-4100               13.44910.2847.3748.037
10:10(中原)晋北游邀4000-3500               10.3966.9114.0136.952
11:11(中原)薛村3500-3300                   07.8919.51412.715
12:12(中原)西北冈祭祀坑Ⅳ+Ⅴ组3300-3100    7.89104.7487.438
13:13(中原)殷墟中小墓②组3300-3100         9.5144.74807.057
14:14(中原)大司空3300-3100                 12.7157.4387.0570
15:15(中原)陕西西村3100-2800               9.1715.977.3488.493
16:16(中原)晋南曲村3100-2800               10.5396.9564.0297.978
17:17(中原)晋南上马3100-2800               8.8078.2495.65611.072
18:18(中原)碾子坡西周组3100-2800           13.07511.0018.63410.948
19:19(中原)临潼新丰2200-2100               8.5888.3245.87810.454
20:20(中原)秦陵山任窑2200-2100             15.92714.76313.35515.87
21:21(华北)姜家梁约6800                    7.4348.58710.4089.828
22:22(华北)庙子沟5500                      8.4059.86610.4159.608
23:23(华北)陕北寨峁4800-4100               10.98310.13410.29113.393
24:24(华北)内蒙朱开沟4200-3600             13.99810.09811.48812.785
25:25(华北)蔚县三关3100                    10.81410.98411.95414.614
26:26(华北)毛饮A组2500-2300                10.7078.7657.52511.812
27:27(华北)毛饮B组2500-2300                7.7766.2745.0388.087
28:28(华北)内蒙毛庆沟2500-2300             12.35310.389.83612.972
29:29(华北)冀北白庙①组2500-2300           14.12111.87910.6459.89
本帖最后由 隔壁老王 于 2018-1-26 18:34 编辑

周人也类似,周人与关中豫西人最近,包括秦人都是近亲,其次为商系人群,其次为华北人群,关系最远的也是大汶口人群。
18:18(中原)碾子坡西周组3100-2800           
1:01(中原)宝鸡北首岭仰韶7100-5800         8.802
2:02(中原)关中半坡横阵6800-6500           8.772
3:03(中原)关中元君庙6800-6300             10.925
4:04(中原)豫南下王岗6600-6000             14.095
5:05(中原)大汶口王因6500-5500             11.117
6:06(中原)关中姜寨二期5500-5000           8.435
7:07(中原)大汶口西夏侯5100-4400           13.164
8:08(中原)豫西庙底沟二期4900-4800         8.786
9:09(中原)晋南陶寺4500-4100               5.447
10:10(中原)晋北游邀4000-3500               6.725
11:11(中原)薛村3500-3300                   13.075
12:12(中原)西北冈祭祀坑Ⅳ+Ⅴ组3300-3100    11.001
13:13(中原)殷墟中小墓②组3300-3100         8.634
14:14(中原)大司空3300-3100                 10.948
15:15(中原)陕西西村3100-2800               12.184
16:16(中原)晋南曲村3100-2800               7.522
17:17(中原)晋南上马3100-2800               8.157
18:18(中原)碾子坡西周组3100-2800           0
19:19(中原)临潼新丰2200-2100               7.642
20:20(中原)秦陵山任窑2200-2100             14.963
21:21(华北)姜家梁约6800                    13.218
22:22(华北)庙子沟5500                      11.231
23:23(华北)陕北寨峁4800-4100               16.299
24:24(华北)内蒙朱开沟4200-3600             16.746
25:25(华北)蔚县三关3100                    13.506
26:26(华北)毛饮A组2500-2300                11.481
27:27(华北)毛饮B组2500-2300                6.732
28:28(华北)内蒙毛庆沟2500-2300             13.264
29:29(华北)冀北白庙①组2500-2300           9.842

周人和中原组、华北组的距离,与中原组除大汶口外,基本都在10以下,而与华北组的距离,除毛饮B组外,基本都在10以上

最大值1平均值最小值
中原组14.9639.5195.447
华北组16.74612.486.732
聚类分析

目前论坛上很多聚类分析都是望文生义,很多人解读有误,比如小Y,把聚类的排列顺序接近看成是亲缘关系近,包括在他很多帖子里都曲解了聚类图,这种如果设置最大阶次为25,一般5以下比较有价值,超过5的聚类,内部差异太大,也正是这个原因,所以他很多次把华北人群和中原人群搞混到一起了,误认为两者接近。
1

评分次数

本帖最后由 隔壁老王 于 2018-1-26 18:35 编辑

29个人人群做成聚类图后,发现一个现象,大致亲缘关系最近的,应该是有五大人群。

第一个人群是A,核心是关中、豫西、晋南地区,包括仰韶(半坡+庙底沟)、周人、秦人集团,这部分人群数量比较多,全部是中原类型。
第二个人群B和第三个人群C,基本集中在河北地区,包括偏北的B人群和偏南的C人群,大部分和商人集团有关,B人群多为华北类型,偏南的C人群多为中原类型。
第四个人群D人群,明显为内蒙中部人群,均为华北类型,但这部分之间的欧式距离都比较大,体现了这部分人群是混合而成的,而且混合的比例不均衡。
第五个人群是E人群,这部分实际是大汶口人群,从欧式距离看,商人集团和周人集团,与E人群(大汶口人群)距离都特别远,把他们和商周都认定为中原类型,其实不太合适。



聚类图.jpg
五类.jpg
可以看出,吉大关于古中原和中华北的划分是有依据的

当然有个瑕疵,就是大汶口系统的部分遗址(西夏侯等)与西部人群差异十分巨大。
先回帖细看
隔壁老王,肯定觉得看论坛的人都瞎。计算机上,回。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2018-1-26 23:59 编辑

先河南,正宗中原。

河南青铜时代古人更接近本地新石器时代上古华夏族古中原类型,还是更接近冀北、晋北、内蒙古中南部的北狄族群及其始祖古华北类型?

先看隔壁老王自己做的图,我不清楚是不是他认为论坛人都眼瞎还是如何?

另,在隔壁老王的所谓“大数据”基础上,我把文献报道的数据较为完整的样本全部录入,包括河南新石器组和河南青铜,各类被归入吉大文献归入古华北类型的样本,以及汉族现代对比组,规律大家族自己看,我录入了欧式距离、classical cluster,PCA,MDS四个最常用的分析方法。
看看我的完整数据,大家就知道隔壁老王怎么优选数据了,左选右选,在新石器时代找了两个最接近青铜组的下王岗和庙底沟二期,其他各组古中原,但凡离得远的,直接无视了,但即使如此又如何?整体而言,青铜组到底近古华北组还是石器时代古中原土著?不言而喻。另外,大司空(14号)的pca在哪?PS掉了?

另外,隔壁老王的数据并没有完成录入,我计算结果来看,殷墟2组整体更近古中原类型,包括下王岗,他的结果与下王岗很远,2组是特例,但这不影响整体判断,即青铜时代古中原类型不同程度介于新石器时代本地土著和古华北类型种系之间,且整体偏向后者。

另外,隔壁老王,你敢不敢录入你的“赵国华夏“大堡山组,还是现代汉族对比组,请给句痛快话。

【注】隔壁老王的欧式距离数据。我整理时,古中原类型合并组写错了,不改了,小bug。

薛村PCA 隔壁老王.jpg
薛村cluster 隔壁老王.jpg
隔壁老王 薛村 欧式距离.png
河南古今PCA.png
河南古今MDS.png
河南古今cluster.png
河南古今Eulidean.png
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 Yungsiyebu 于 2018-1-27 00:20 编辑

稍候,再看隔壁老王是怎么优选宝鸡北首岭等组(姜戎大本营的始祖种系)的样本来证明中原华夏土著万古一系的,精彩值得期待。
姜戎姬周.png
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
另外,请你注意,不是说你把一个论坛都铺满数据,你就专业了权威了,公开文献公开数据,大家自己会download,不用把网友当弱智。在低估网友智商前,还是先琢磨一下睁眼说瞎话怎么糊弄过关的技术问题。
新技术方案尝试:低覆盖全基因组,最低成本深度解析父系源流,略有成效,大家一起摸索。微博@基因人王冰 QQ群:387100816。
本帖最后由 隔壁老王 于 2018-1-27 09:56 编辑
先河南,正宗中原。

河南青铜时代古人更接近本地新石器时代上古华夏族古中原类型,还是更接近冀北、晋北、内蒙古中南部的北狄族群及其始祖古华北类型?

先看隔壁老王自己做的图,我不清楚是不是他认为论坛人都 ...
Yungsiyebu 发表于 2018-1-26 23:25
我已经说过很多次了,你根部不会看PCA主成分分析,你根本就不懂分析方法

分析PCA主成分不是你这种看图上的直线距离,你反复这么强调直线距离近说明你就是个外行

我在4#里已经分析过了
中原组,无论新石器晚期、青铜早期、商代、周代、秦代,其第1主成分都是稳定的,说明中原组最核心成分就没有变化过

相反,华北组,第一主成分则是青铜早、商代、周代逐步上升的,显然不是其原始成分
本帖最后由 隔壁老王 于 2018-1-27 09:55 编辑
先河南,正宗中原。

河南青铜时代古人更接近本地新石器时代上古华夏族古中原类型,还是更接近冀北、晋北、内蒙古中南部的北狄族群及其始祖古华北类型?

先看隔壁老王自己做的图,我不清楚是不是他认为论坛人都 ...
Yungsiyebu 发表于 2018-1-26 23:25
另外,你PS我的聚类图,有选择性的去掉了最大的一个cluster,而这个簇中包括新石器中原、陶寺、周人、秦人,他们是聚在一起的,你PS掉了这部分人群

商人和河北北部人群聚类,是因为商代中原组,第二主成分上升,我在5#楼分析过,第二主成分是华北人群青铜器时代的重要因子,但第二主成分在周代中原组又再次下降了,这些都是你不懂的
返回列表
baidu
互联网 www.ranhaer.org