Google

蓝海人类学在线 Ryan WEI's Forum of Anthropology

 找回密码
 注册
楼主: Yungsiyebu

河南青铜期:土著还是移民?官庄东周组新证据

[复制链接]
发表于 2018-7-17 11:18 | 显示全部楼层
我以前曾在论坛上提到过一篇文献,吴秀杰的《聚类分析和主成分分析方法在人类学研究中价值的判定》,在此文中,吴秀杰对于同样的九个组,作出了七个不同的聚类树枝图,其中甚至有华北云南和欧洲相聚,而不是和其他几个北方省份相聚的例子。
聚类树枝图.png
发表于 2018-7-17 11:28 | 显示全部楼层
接下来,看“数据的魔法之二”。
让我们回到刚才的92楼,提到了对数据进行标准化,那么我们对标准化之后的数据进行聚类分析,又将会如何呢?

我们会看到西山组再一次“移位”,这一次移动到了青铜时代的组里,在新庄二里头和殷墟中小墓2组与官庄组之间!
聚类树枝图3.jpg
发表于 2018-7-17 11:33 | 显示全部楼层
这便是我刚才说的西山组和青铜时代组的差距“其实未必那么大”,我们把它放在青铜时代组中,也是可以的。

为什么会这样?我们回到86楼看原始数据,便一清二楚了。
西山组和其他组最明显的区别是颅宽,西山组的颅宽小于其他的五组,而官庄组和西山组的颅宽差距为6,这是相对于其他测量指标来说挺大的区别,在结果中会占比较大的比重,而进行标准化之后,这一区别所占的比重就没那么大了,官庄组和西山组的区别也就“减小”了,这就是关键所在。
发表于 2018-7-17 11:36 | 显示全部楼层
上面的结果,到底哪一个是对的?我的回答是:很难说!当然我们有更精确的一点的方法,比如想办法进行K均值聚类,有点复杂,就不再详细说了,这里想说的是,不要迷信任何数据分析的结果,数据分析只是一种计算方法而已!实际上,体质人类学家最终对类型的断定,还是主要看具体特征。
 楼主| 发表于 2018-7-17 11:36 | 显示全部楼层
接下来,看“数据的魔法之二”。
让我们回到刚才的92楼,提到了对数据进行标准化,那么我们对标准化之后的数据进行聚类分析,又将会如何呢?

我们会看到西山组再一次“移位”,这一次移动到了青铜时代的组里,在 ...
剪径者 发表于 2018-7-17 11:28

回头,到Windows系统,我会用各种主流距离,来做cluster,这样,你们就知道,剪为什么只用一种欧式距离讲故事,而对其他算法一概无视。
发表于 2018-7-17 11:43 | 显示全部楼层
体质人类学家是怎样分类的呢?我们来看朱泓先生的演讲:

《中国古代居民人类学类型》朱泓
http://www.ranhaer.com/thread-29092-1-1.html


“古中原类型”分布的黄河中下游地区,像仰韶文化、大汶口文化这些都是,那我就不一一再去读它了,包括什么商代的自由民,殷墟中小墓多数墓主,还有周人也都是属于这个类型。他的体质特征呢,我这写了很多,但是我让大家记比较好记,就是抓这么几点,一个是高颅类型,“古中原类型”是高颅,脸是偏窄的,偏狭的,就记这两点就行。颅型是高颅,脸是比较窄的,然后还有一些其他的附加的特征,面部扁平度不大,中等的面部扁平度,面部扁平度要小就变成白人了,面部扁平度反映的是什么呢,你看那白人是这样的,颧骨是往后长的,所以脸的地方是鼓起来的。要是蒙古族,扁平度非常大,他的颧骨是向前凸出的,前面就很平,这我说的形象点儿,那个德德玛老师的照片你们都不生疏吧,德德玛老师的脸前面特别扁平,那是蒙古人的特点。“古中原类型”是介于二者之间的,既不太扁平,也不像白种人那么往前鼓,是中等的面部扁平度,另外还有,眼眶比较低,面部也比较低,脸小,面部比较扁,而且鼻子比较宽阔,有一个阔鼻的倾向,这样的一个特征让大家看起来不是像今天的河南人、山东人、河北人,更像是今天的广东人和香港人、越南人。

.........

“古华北类型”主要的特征,一写也写了一大堆,但是我要告诉你们,最好记的是高颅、窄面,这点和“古中原类型”差不多,都是高颅,脸比较窄,但是有一点不同,是比较大的面部扁平度,就是脸非常扁平。刚才讲的“古中原类型”是中等扁平度,他是不太扁平的,“古华北类型” 高颅、窄面和“古中原类型”完全一样,但是面部扁平度非常大,非常扁平,当然还有其他的那些咱们就不管了。那么,高颅、窄面的这种人和东亚人种也是比较接近的,就是说“古中原类型”和“古华北类型”都是属于东亚人种,和现代的东亚人种比较接近,所以我们推测它可能是东亚人种的一个来源。

.........

在北方地区,除了这个“古华北类型”以外,还有一个叫“古蒙古高原类型”,它主要分布在内蒙古高原周围,这个我刚才已经提到了,最北边可以到达外贝加尔、南西伯利亚。这里面有很多遗址出土,我不一一念了,都属于“古蒙古高原类型”这个材料。这个类型最主要的体质特征非常好记,就是低颅,他不是高颅了,他是低颅、阔面,刚才我们说的“古中原类型”和“古华北类型”是高颅、窄面,这个是低颅、阔面,在颅型和面型上正好相反,而且面部扁平度非常大,这样记好记,按照我写的这些,是科学的语言,写研究报告时要这么写。但是我要让大家记的就是,低颅、阔面,再加上面部扁平度非常大。那这种类型,匈奴人是属于这个类型,再早的就是蒙古高原上的新石器时代的那些居民是这个类型,晚一点儿到匈奴也是这个类型。鲜卑、契丹,一直到蒙古都是属于这个类型的。

.........

第四个类型是古东北类型,它的特点还可以用高颅阔面来形容,面部扁平度很大。这个是高颅阔面,面 部扁平度也很大,它和古蒙古高原的类型的区别只不过是一个高颅,一个低颅,都是脸很宽,面部扁平度很大。东北地区的绝大部分的考古学文化都是属于这一考古学文化,除了刚才提到过的夏家店上层文化、高开山文化,其他都是这样的,如我们所熟悉的红山文化,夏家店下层文化。这是我从俄罗斯科学院西伯利亚分院实验室所拍的一张照片,出土于俄罗斯远东的博伊斯曼新石器时代墓地,它就属于高颅,脸很宽,面部扁平度很大,颧骨也很突出,这就是古东北类型。古东北类型的居民用现代人来比的话,我觉得爱斯基摩人是与其最相似的。爱斯基摩人同样是高颅类型,不像蒙古人是低颅,但是脸很宽,颧骨也突出。我认为,爱斯基摩人和古东北人很有可能存在一定的关系。

.........

第五个类型叫做古西北类型,主要是分布在甘青地区。甘青地区先秦时期的文化大家都比较熟悉,如马家浜、火烧沟、寺洼、辛店等文化,除了沙井文化以外几乎都是属于这一类型。它的主要特征就是高颅、中等偏狭的面宽、中等的面部扁平度,中框形等,很多都是用中等来形容的,古西北类型的很多特征都是比较居中的,这种特征实际上在现代人种类型研究中就是东亚蒙古人种特别是北方汉族的特征。

评分

1

查看全部评分

发表于 2018-7-17 11:53 | 显示全部楼层
接下啦,我们谈谈“主成分分析”,就是PCA
在说这个之前,首先说一说,什么是“主成分分析”,它是用来做什么的。
发表于 2018-7-17 12:05 | 显示全部楼层
剪版辟谣啦!~支持!
发表于 2018-7-17 12:07 | 显示全部楼层
主成分分析,在数学上,其实就是“线性变换”。

它的目标是,将多个变量(就本例而言,就是这15个测量指标),通过变换,找出一种“能反映最多信息”、“权重最大”的变量,这种变量是这个15个指标的适当组合,它最能反映结果。

这种变量,就是“主成分”,“主成分”有多个,就本例而言,有15个变量,相关矩阵是一个15 X 15的矩阵,所以主成分也可以多达15个,只不过特征值小于1的,影响已经十分小,或许已不能看作“主成分”了。

在原理上,我们把这15个测量指标看作自变量,那么“主成分”是一种因变量,因变量不能反映自变量的所有信息,所以主成分分析的精度,取决于这个主成分累计的贡献度,贡献度越大,能反映的信息越多,结果也就越精确。

“主成分分析”不是用来分类的!虽然它也能进行一些粗略的分类,但不是专门针对分类的分析方法,同样,主成分分析也不能严格意义上衡量两个组的远近,两个组在“主成分”上的“远近”,和组别所有数据的“远近”不是一回事。
发表于 2018-7-17 12:12 | 显示全部楼层
根据第一手检测数据得出的欧式距离是可以客观反映考察对象的空间距离的,这个毋庸置疑。不过根据这些距离值是否可以直接得出类聚关系,则不好说,因为涉及到维度之间的关联性。比如本帖中说的‘颅指数’,是根据第一手检测数据得出的第二手数据,对判断考察对象的类聚关系非常重要,如果加入欧式距离计算,则情况会明显不同,可是如何分配权重呢? 会给算法提出很大的挑战,也会给计算者留下很大的操控空间~
发表于 2018-7-17 12:18 | 显示全部楼层
手工对主成分分析进行人肉计算,需要7、8个步骤,这里还是用软件来进行。我们可以利用SPSS里的因子分析选项来作主成分分析,不过,因子分析本身和主成分分析是两回事,等会再说。
SPSS 2.png
解释的总方差.png
五个主成分.jpg
发表于 2018-7-17 12:23 | 显示全部楼层
FAC1~5,即是我们提取到的“主成分”,我们把第一、二主成分作为坐标轴,绘制出散点图,就能直观的看到六个组的分布如下。
PCA.png
发表于 2018-7-17 12:27 | 显示全部楼层
这类分析图,是永谢布经常喜欢在论坛上贴的,有些人会觉得,什么什么!一看上去,这个图岂非是“官庄组”在“青铜时代组”和“新石器时代组”的“之间”?因为,他们是这么看图的:
PCA.png
发表于 2018-7-17 12:32 | 显示全部楼层
然而,这种图不是如此看的,因为“第一主成分”的影响最大,权重最高,所以,我们是优先看第一主成分,即是说,这个图要这么看:
PCA.png
发表于 2018-7-17 12:46 | 显示全部楼层
也就是说,这个图最后的结果,和刚才作的欧氏距离、聚类图,反映的情况一样,青铜时代的三个组在一起,位于坐标轴的左侧,而新石器时代的贾湖和下王岗在一起,位于坐标轴的右侧。

但例外是西山组,它跑到了左侧和青铜时代的三个组“在一起”了,从这个意义上说,我也作出了“官庄组接近西山组”的结果——当然,不是官庄组特殊,是别出心裁的“土著孑遗”,而是西山组特殊,西山组和刚才聚类分析的数据魔法一样,落入了青铜时代的集合中去了。

这是对的吗?当然是有问题的,结合刚才的欧氏距离来看,就能看出:西山组和官庄组并不太“接近”,只是在“主成分”上“接近”,比如说官庄组和殷墟中小墓2组的接近程度,与官庄组和西山组的接近程度相比,不是这张图上看起来的后者超过前者,实际是前者超过后者,这就是我刚才说的障眼法:“主成分上接近”和“接近”是两回事

为什么呢?因为主成分分析只“反映一部分真相”。
发表于 2018-7-17 12:57 | 显示全部楼层
现在,我们来看刚才的这张图:解释的总方差。

这张图标,说明了每个主成分的“贡献度”,说是主成分,那它到底有多“主”呢?

主成分的位次,来自于它的特征值,每个变量(也就是测量指标),所分得的特征值应该是1
所谓,某一主成分的贡献,就是它的特征值除以15——比如,对第一主成分,它的特征值为5.399,所以它的贡献度,也就是这里学究气的说的“总方差的解释度”就是5.399/15=35.990%
第二主成分的贡献度是29.574%

PCA上的两个主成分,“累计贡献度”是65.565%
这张图上只有65.565%的“真相”而已。

得五个主成分(特征值大于1)加起来,才到100%

发表于 2018-7-17 13:07 | 显示全部楼层
本帖最后由 剪径者 于 2018-7-17 13:19 编辑

作数据分析图,绝不是画个图了事,数据也好图也好,本身是“不会说话的”,数据和图到底说明了什么问题,是要人来“解释”的,怎么解释,大有玄机。
另外还有一点,分析完了,我们分析的怎么样,精确度如何呢?刚才说过,可以看累计的贡献度,我们作图的两个主成分,累计贡献65%,这个精度不上不下,到底多少是好,没有一定之规,如果能达到70-80%会是个不错的结果,但就这种情况来说,也将就了,实际上我做过的例子中,所有特征值>1的主成分加起来不过90%的,也大有情况在。

不过,如果“主成分”加起来不到50%,那又如何呢?

有个笑话:一个老女人的朋友惊讶的问她:“你有了新的男友?他知道你的年龄吗?”
老女人回答:“是的,他知道一部分。”

本帖的大师,正是如此,他讲的是真相吗?是的,他讲了一部分,20.3%+15.2%=35.5%的“真相”
m.jpg
发表于 2018-7-17 13:19 | 显示全部楼层
未完,下午有事,过后再续。
 楼主| 发表于 2018-7-17 15:52 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-7-17 15:59 编辑
接下来,看“数据的魔法之二”。
让我们回到刚才的92楼,提到了对数据进行标准化,那么我们对标准化之后的数据进行聚类分析,又将会如何呢?

我们会看到西山组再一次“移位”,这一次移动到了青铜时代的组里,在新庄二里头和殷墟中小墓2组与官庄组之间!


遮遮掩掩,但剪终于在论坛第一次跑了cluster,祝贺一下。

结果最主流的cluster算法Hierarchial clustering又被他选择消失掉了。

我们可以明显观察到,classical cluster结果是:官庄首先与贾湖和下王岗组成的聚类群,相对较远的聚类,当然,说的是相对,要比多数青铜时代的中原组与古西北类型和古华北类型的距离远很多。

官庄-Hierarchial clustering.jpg
 楼主| 发表于 2018-7-17 16:03 | 显示全部楼层
本帖最后由 Yungsiyebu 于 2018-7-17 18:25 编辑
主成分分析,在数学上,其实就是“线性变换”。

它的目标是,将多个变量(就本例而言,就是这15个测量指标),通过变换,找出一种“能反映最多信息”、“权重最大”的变量,这种变量是这个15个指标的适当组合,它 ...
剪径者 发表于 2018-7-17 12:07

剪最大的特点就是装权威,洋洋万字告诉你PCA怎么看,用来忽悠小白。但是我告诉你,不好使。最客观的评估方式就是通用算法自己跑数据,怎么理解PCA主成分的距离,直接用其导出cluster即可,这才是最客观的判断。

结果如何?虽然与经典cluster做出的聚类略有差异,但还是表现为,官庄组与下王岗首先聚类。你的歪理邪说说破天也没用。


剪最惯用的障眼法就是这种东西,明明R一条命令就能用标准算法(classical clustering)搞定PCA主成分距离的事情,非洋洋万字装权威,忽悠小白,什么叫一本正经的说瞎话,发挥到极致。欧式距离,明明R一条命令搞定,明明任何一种常用统计工具一键搞定的东西,非要码一堆字,好几个帖子故弄玄虚,哗众取宠。


您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|人类生物学在线 ( 苏ICP备16053048号 )

GMT+8, 2018-10-21 07:24 , Processed in 0.431904 second(s), 20 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表