我靠打爆學霸兌換黑科技TXT 我靠打爆學霸兌換黑科技第1293節

簡書小說>我靠打爆學霸兌換黑科技TXT > 我靠打爆學霸兌換黑科技第1293節（第3頁）

譬如著名的齊普夫定律，也叫省力法則，拿足夠長的一大段人類文字，將其中的高頻字詞統計出來，大概率會出現高頻詞次數和次序排序的反比關系，也就是說第二高頻詞出現的次數會是第一高頻詞的二分之一，第三高頻詞出現的次數會是第一高頻詞的三分之一，往后四分之一、五分之一等等。

最初齊普夫定律是從人類文本里總結出來的，但后來生物學家們發現，海豚座頭鯨之類可以互相交流的生物，聲音變化分布竟然也符合齊普夫定律。

此外這一版本的翻譯器嘗試額外引入了多種人類語言模型，用來應對不同信息熵的外星文明語言。

信息熵也叫香農熵，由信息論祖師爺香農提出了最初公式，歷經一個多世紀的學術研究，結合馬爾科夫鏈等理論，被反復升級優化。

簡單來說，符號種類數量越小，信息熵越低，符號種類數量越大，信息熵越大。

信息熵越低的語言，文字理解學習起來更容易，但相同長度的文本能表達的信息量也越少，可以理解為更費口舌更費筆墨但不費腦子，溝通效率更低。

例如英文的一階信息熵大約是4比特，漢字一階信息熵大約是96比特，不同文本樣本和不同建模得出的計算值會略有誤差，但差距之大顯而易見。

實際生活中最直觀的例子，就是同樣內容的文本，例如產品說明書或者聯合國文件，就會出現漢字篇幅更短的情況。

第五代星際語言翻譯器，在之前幾代升級的模塊上進行全面加強和改錯。

傳遞信號的模塊換上了最頂尖的，精度強度都上了一個臺階，造價上了十個臺階，好在這種和外星人溝通的東西也不用考慮量產成本，價格完全無所謂。

又加入了更多的初次接觸信息種類，更靈敏的ai模型。

同時神童們在做第五代版本時，再度深入研究了語言信息熵，之前研究的語言只是現有使用的國際主流語言，這次神童們研究了歷史上的古語言演變過程，并嘗試自創信息熵更高或更低的新語言。

宋河看神童們的研究手冊時，震驚于研究的細致深入程度。

有據可查的二百多種不同歷史時期的語言，神童們分工合作都吃透了，得出大量數據詳實的結論，這幫智商逼近二百的孩子，為了一個當時毫無實用價值的課堂小任務，業余時間自學成才變成了一堆古語言專家。

全球曾經出現過的主流語言里，信息熵的冠亞軍分別是繁體漢語文言和東瀛候文，其中文言文不同歷史時期的熵變化也做了排序，《尚書》時代的信息熵和《史記》時代的信息熵差別已經很大了。

最初神童們認為，很大概率外星文明的語言也會出現類似的變化，隨著歷史時期改變，出現信息熵減弱，從信息熵更高的《尚書》減小為《史記》，從信息熵更高的繁體減小為簡體。

包括東瀛候文，是從漢語文言先演變成變體漢文，最后才演變成東瀛候文，整個演變過程也是信息熵不斷減小的過程。

研究到這一步，神童們覺得外星文明的語言信息熵可能也會較低，畢竟星際文明的歷史大概率會比人類歷史更長。

但這一結論只存在了一個周末就被推翻了，神童們立馬又得出了完全不一樣的結論。

推翻老結論的原因主要有三點。

第一，為什么漢語演變時間比其他國際常用語言長的多，信息熵卻是最高的，而不是隨著時間降到所有語言的最低？

第二，經過多種算法做文本壓縮實驗，現代漢語幾乎已經達到了信息熵界限。

為了驗證壓縮實驗的成果，神童們特意在外星動物園挑選了一些智商接近普通人上限的、沒怎么學過語言的小猩猩，教授人類各種語言，以及幾種神童們自創發明的更高信息熵的新語言。"