返回列表 回复 发帖

【粗略】去汉字化的阀值

很粗略的估算
大致可以反映去汉字化之后,拼音文辨义的程度

北京话:送气(塞音2分),n/ng,4舒调
上海话:送气,浊音(塞音3分),n/ng,h,3舒调,2入调
闽南话:送气(2),m/n/ng,p/t/k,5舒调,2入调
广州话:送气(2),m/n/ng,p/t/k,6舒调,2入调(长短入不构成对立)
越南语:送气(2),m/n/ng,p/t/k,6舒调,2入调
韩语:送气(2),m/n/ng,p/t(r)/k,0调
日语:浊音(2),n,0调(u、tsu、ku虽是汉语韵尾反映但会跟相应开音节相混,所以韵尾等于没有区分作用)

阀值计算:几分*舒尾*舒调+几分*入尾*入调

结果:
越南语 48
粤语 48
闽南语 42
上海话 24
普通话 16
韩语 12
日语 2

结论:
单音节语言越南可以拼音化,粤语、闽南语也可以(理论上)
多音节语言阀值不同,要低很多,但日语明显不行

韩语只有12,碰上姓氏、人名就会出大问题,所以韩语也终将留用汉字
江水三千里,家書十五行
解放后汉字的简化运动
可以说是以现代汉语常用字为标的
草字、俗字、古简字、罕简字(回收字)的盛宴狂欢
将草根庶民的汉字历史整理到了极致

但这已经做到了极限
由于汉语(特别是核心区)近1000年发展的轨迹
实际上是在把汉语朝着离拼音化越来越远的方向带
简单说也就是音系简化这样的语言大趋势
造成核心区汉语实际上对拼音化有着强大的阻挡作用

所以二简字失败也就非常合理了
汉语所能做到的文字改革到此为止
江水三千里,家書十五行
这个计算太烂了,不说别的吧,上海话浊音能配的舒声调只有一个(阳平),按照这种算法直接给配上三个了。另外上海话-n -ng并不对立(或者说至少不直接对立)。
与其这样算还不如直接点点实际使用的音节数量,点音节数量并不算麻烦,比你这样子算也更能体现实际的音系情况(譬如上海话使用的音节实际上只有普通话一半稍多一点,而不是你算出来的比普通话更适宜拼音化)。
最后,音系简化对拼音化只是稍有不便,但是铁下心来弄是有代偿机制的,这也是为什么东干语能够拼音化成功。音系简单得要死的波利尼西亚语通通都用拉丁字母。用汉字纯粹是文化惯性而已,二简字失败最主要的原因也是推出时候文盲率已经降低不少所以习惯使用一简的人数已经很多,导致阻力过大而已。但是如果衙门一门心思继续二简下去我预计还是可以成功的,更何况二简牵涉同音合并的也不是那么多。
本帖最后由 linxiao 于 2013-12-22 16:13 编辑

呵呵,我想想要怎么算比较好
上海话 m和n合并了,n和ng的确也不是直接对立,也有合并的
但应该通过其他的方式还是有对立的吧?
所以鼻音的系数应该还是有2

2清音*2*2声调+1浊音*2*1声调+2清*1入+1浊*1入=8+2+2+1=13

BINGO!比普通话少了吧
江水三千里,家書十五行
这个计算其实只有对汉字圈的语言适用
波利尼西亚肯定不包括咯

汉字圈的问题在于历史上大量使用汉字,所以有巨大的汉字词汇
包括人名什么的(历史的、现代的)
拼音化最直接的是会碰到这个问题

非汉字圈的语言因为高阶文学语历史上本就是拼音文字,包括泰语(->巴利语)这些的
所以他们是无所谓这个问题
江水三千里,家書十五行
本帖最后由 linxiao 于 2013-12-22 16:30 编辑

不过这样算的话,其他也要调整下

粤语 不送气的只能配4个舒调+2个入调,送气的是5个舒调+1个入调
应该是 3*4+3*5+3*2+3=36

越南语 算作浊音跟不送气合并,于是不送气可以配6个舒调+2个入调,送气的配3个舒调+1个入调
3*6+3*3+3*2+3=36

闽南语 由于浊音不规则派入送气、不送气,所以送气、不送气均涵盖所有声调
算法不变

新排名:
闽南话 42(如果单算文读的话只有33)
广州话 36
越南语 36
普通话 16
上海话 13
韩语 12
日语 2
江水三千里,家書十五行
本帖最后由 linxiao 于 2013-12-22 16:22 编辑

的确有一部分二简字是蛮ok的
主要是其中更改声旁的部分

既然 让 的声旁从 襄 变成了 上
那其实 壤、嚷、攘 等一堆都应该跟着改才对 (不过声调倒是不够合适了)
还有就是罕简字(回收字)感觉发掘得还不够多

不过 像 【鬥 斗】这种本来就都是常用字的 进行合并 我是非常反对的(而且 鬥 明明笔画也不多)

简化运动是蛮有趣的,让人觉得像一场大型游戏
江水三千里,家書十五行
粤语也有贼caak6剧kek6这样的不规则音节,为数还不少。这种算法也忽略了主元音复杂程度的问题还有大量配合上比较细小的空位(譬如普通话不送气阳平没有-n -ng结尾的音节)。更何况你若认为上海话-n -ng还是变相对立则-t -k其实也是类似情况。但是都考虑进去还不如点点音节了。
汉语拼音化没什么问题,三个声调的东干语都能拼音化,而且连声调都直接省了不标,照样用着。
本帖最后由 linxiao 于 2013-12-22 18:19 编辑

我觉得可能不能这样类推
东干语太特殊了

几个方面来说
1、他的本质 回族汉语的外来词汇天然会比汉族多(历史上就有用阿拉伯字母来写过),但这方面我了解不多,回族汉语的高阶词汇可能阿拉伯语、波斯语和突厥语本来就占了相当比例。已经不算是单纯的汉字圈了
2、他现在作为一个少数语言,文字载体其实很窄,他不需要去表达多少跟科学技术有关的东西,包括自然科学、社会科学。
从这个角度来说,其实壮语、苗语、彝语也都算拼音化,但是意思是一样的
现在基本大家都会国家语言,东干人对俄语和当地突厥语的掌握也很高,科学的东西他直接寻求国家语言的来源就可以
3、现状来说,东干文里面的现代高阶词汇,汉字词比日韩越可能都要少的。近代以来中日韩越的词汇一起进行了更新(主要来自日本),但东干语没有参与这次的更新。最后是俄语、突厥语词汇的大量涌入,当然这本来也算是回族语言的模式

感觉要用拉丁化的汉语来写历史、科学之类的论文,太不可能了
会充满各种无法避免的混淆
这样的文本没办法拿来作为知识和社会进步的载体
包括姓氏、人名什么的大量合并、混淆,也是根本不可能被接受

不知道东干人现在取名字怎么取
江水三千里,家書十五行
本帖最后由 linxiao 于 2013-12-22 18:28 编辑

我觉得汉字圈的拼音化与否,肯定有一条线在那边

日语没办法拼音化 这个应该是肯定的
但韩语一定程度上可以
所以说明中间是有一条线 或者说阀值
(但我觉得韩语历史上若发展出了训读,应该也不会拼音化)

同时还需要将文本承载的东西加进来考虑
如果全部是庶民内容
我觉得的确所有语言都可以拼音化

但若要作为国语、官方语言或者说科学研究的语言
汉字圈的语言拼音化会受到语音特性的制约
江水三千里,家書十五行
谁说日语没法拼音化的?
多借点印欧语借词就成
物以类聚 人以群分 新老亚洲粉丝始终是fall into the same cluster滴
用汉字也未必好嘛,会有形近误导问题,像楼主一直想说阈值但是全写成阀值。
外来词汇多就是我所谓的自我适应,拼音化自然会用各种各样的方法降低重码率。汉语口语也一直通过复合等方法规避同音严重的问题,既然口语能够理解记录语音也必然没什么大问题,不过习惯与否。像东干的“文学作品”用一般中国人的眼光看俗劣白到不可耐,人家适应了照样当正经文学作品看待,写论文也未必不能写,顶多涉及人名标注下汉字就行了。
另外朝鲜谚文不早就成功拼音化了嘛。
值”?
目前在復旦已經停止對外的收費服務,只做科硏項目。測試可以找源基因 www.yoogene.com 。
新浪微博@polyhedron
微信公衆号fenzirenleixue
阈值吧
山不走到我这里来,我就到它那里去。
用汉字也未必好嘛,会有形近误导问题,像楼主一直想说阈值但是全写成阀值。
外来词汇多就是我所谓的自我适应,拼音化自然会用各种各样的方法降低重码率。汉语口语也一直通过复合等方法规避同音严重的问题, ...
Srongsiang 发表于 2013-12-22 23:21
拼音文字的拼写错误不稀奇.
物变天汰,余者生存
阈 和阀主要是输入法的问题的.拼音输入法很容易出错字.
物变天汰,余者生存
本帖最后由 kevinlieu 于 2013-12-28 23:00 编辑

很可笑的算法。
广州话比普通话的声母略少,
但韵母的数量差不多有普通话的两倍之多,
声调的数量也是普通话的两倍还多,
照这么一算,广州话的音节数量与普通话相比,不知道是其几倍。
照楼主的“阀值”,广州话也是普通话的三倍。

可惜,实际的结果是,广州话的带调音节数量只有一千七不到,
而普通话就算排除儿化音节,有一千两百多。

某些方言的音位(声韵调)利用率非常低,
虽然韵母和声调数量看起来不少,但受制于拼合关系缺位非常严重,
音位数量多了,学习难度大了,可音节数量并没有成比例增长,
一句话,利用率低。
删了这帖吧,谁没个看走眼的时候,都是票友,又不是专业专家,删了这帖,整理整理可以再讨论。
阈值吧,阀值哪来的?
算音节数就可以,有些声韵是不能搭配的,只看声母韵母数量算不出有效数值。不过这个数值也未必管用,有的音节上的字基本没用,有些上面常用字特多。书面语言由于不能描写口语的复杂变调和语调变化,必须用字形区别本无区别的同音字,起到弥补先天不足的作用
返回列表
baidu
互联网 www.ranhaer.org