什么了什么英语_ 汉语为何成为世界上信息熵最大的语言,英语只有汉语的十分之一

汉语是世界上信息熵最大的主流语言。 1948年论文发表,震惊学术界。 这篇论文也开创了测量信息的时代。 因为可以测量事件发生的信息,所以语言作为信息传递的手段,有多少语言的信息? 有世界上最好的语言吗? p/p

在此之前,让我们先谈谈什么是信息熵。 信息熵是指在可能发生的所有事件中包括的信息的预期平均值。 这样说的话,大家都不能理解,让我举个简单的例子。 太阳从东方升起这个词是胡说八道,因为我知道太阳不能从西方升起,所以这个词包含的信息熵是0。 如果你已经做出决定但你不知道答案。 所以,你只能依赖蒙。 此时有信息熵。 把这个判断问题变成选择问题的话,这个问题的信息熵会变大。 除此之外还有概率性的问题。 如果你知道选题a和b可能是正确的,c和d完全不对的话,就选a或b。 与其他选择问题相比,信息熵较少。 p/p

这就是信息熵。 语言的信息熵有多大? 这种计算方式是直观的,只需带入公式即可,但令学者烦恼的长年问题是,一种语言无法正确知道特定位置的出现概率,甚至难以统计该语言有多少个文字。 p/p

因此,信息科学家只能通过各种手段估计各种语言的信息熵,例如有学者认为英语信息熵应为0.6~1.3比特/字节。 其他人认为英语信息熵应该是1.25比特/字节。 英语比较统计,但汉语的统计难易度非常高。 但幸运的是,当时的信息熵才刚刚发展起来,各位科学家对此非常感兴趣。 即使汉语有很大的特殊性,仍有很多学者排除万难,采用统计计算方式,测量汉语信息熵。 p/p

在测量过程中他们发现,无论汉语是文字部首还是音节,他的信息熵都远远超过英语。 p/p

但是这样计算的结果是不能与其他语言直接比较。 因为他们用的是不同的数据库。 另外,由于人为翻译也可能导致信息错误,2002年哈佛大学的一位科学家进行了新的比较实验。 他们选择了在电脑上把文本压缩到信息压缩的下限这一有趣的方法。

也就是说,英语、汉语和西班牙语都没有优化。 然后压缩。 研究人员对英语、西班牙语、法语、汉语、阿拉伯语、日语、俄语等进行了比较。 如果这样压缩,如果文件没有丢失,所有语言和英语压缩文本一样大。 所以我们必须比较的是他们的压缩时间、压缩时间越长,他们的信息熵就越大。

汉语压缩效率远低于其他文字。 另外,他们进行了其他的比较实验,例如压缩算法。 例如扩充译文。 因为圣经有共同的语言,其他语言有很多特别的语言。 但是压缩后,汉语仍然是压缩效率最低的语言。 中文可以说是信息熵最大的语言。

据说这个实验也不完美,有很多脆弱性,但很多实验结果看起来很相似。 而且即使有很大的漏洞,这样的实验依然有很强的指导意义。

大家都在看

相关专题