椰子樹下打盹的哲學家: 異夫規律(Zipf’s law),真的經驗法則?

友善列印、收藏

文 / 陳志龍教授

人類製造的「數據科學」,是「形式的辯證術」,它的功能,就是當作「遊戲規則」的話,就會產生「魔法效果」?

舉最近再吹捧的Ziff's Law 的「真經驗法則」,抑或「偽經驗法則」?

______

椰子樹下打盹的哲學家: 異夫規律(Zipf's law)

http://ajin2050.blogspot.tw/2014/07/zipfs-law.html?m=1

椰子樹下打盹的哲學家
來椰樹下朴豆上讚。畢竟 "任何的存在都有存在的理由" – – – 黑格爾

2014年7月29日星期二
異夫規律(Zipf's law)

http://www.ftchinese.com/story/001057449?full=y

2014年07月28日 06:26 AM
異夫的世界
英國《金融時報》中文網專欄作家 何帆

大學是養怪人的地方。異夫(George Kingsley Zipf, Zipf的發音是/zif/)就是一個怪人。他1902年出生於美國的一個德國移民家庭,到他是第三代移民。1924年,異夫在哈佛大學畢業,然後到德國留學。1929年,他拿到了哈佛大學比較文學博士學位,開始在哈佛教授德語。後來,他被聘為哈佛大學德語系系主任,同時擔任“校聘講師”(University Lecturer),這意味著他想講什麼課就可以講什麼課。他除了講授德語,還鑽研漢語、人口學,但真正讓異夫教授青史留名的是,他發現了一個奇特的規律:異夫規律(Zipf's law)。

20世紀40年代,威斯康辛大學的學者花了14個月的時間,把喬伊絲的名著《尤利西斯》從頭到尾列印在硬紙板上,然後把每一個詞都裁下來,相同的詞黏在同一張大紙上。經過這一番折騰,他們找出了喬伊絲使用的每個辭彙出現的頻率。這個發現引起了異夫的注意。他一眼看出,這裏面暗藏玄機。

在《尤利西斯》中,
I出現的頻率排名第10,在全書中共出現了2653次。
“say”出現的頻率排名第100,在全書中共出現了265次。
“bag”出現的頻率排名第1000,在全書中共出現了26次。
排名第10,000的是個生僻的詞:“orangefiery”,這個詞僅出現了兩次。

異夫發現,某個辭彙出現的序號和該詞出現的次數的乘積幾乎是一個常數。
第10名出現的次數是第100名的10倍,
第1000名的100倍,
第10,000名的1000倍。以此類推,
第2名出現的次數大約是第1名出現次數的1/2,
第3名出現的次數大約是第1名出現次數的1/3,
…後來,人們發現,在英語中使用次數最多的詞是“the”,第2名是“of”,第3名是“and”。“the”出現的頻率為7%,“of”出現的頻率恰好為3.5%。

“異夫規律”不僅僅適用于英文,其他語言,包括中文在內,都符合這一規律。

異夫教授還在其他的地方發現了這一規律。城市人口同樣符合“異夫規律”。
根據1940年美國人口調查,人口最多的城市是紐約,當時有1200萬人,排名第10的是俄亥俄州的克利夫蘭(Cleveland),人口為120萬,排名100的是俄亥俄州的漢密爾頓(Hamilton),人口為11萬。
同樣,一個城市的大小排序和其人口數量的乘積幾乎是個常數。“異夫規律”如今已經成了地理學的秘密武器,它雄辯地指出,城市的擴大能夠帶來“規模經濟”。
美國桑塔菲研究所(Santa Fe Institute)的物理學家Geoffrey West發現,如果城市的規模擴大一倍,創新的數量、人均工資水準都將提高15%,當然,愛滋病發病率、犯罪率同樣也會提高。

不同的國家,比如美國和日本的城市化走過的道路相差極大,但殊途同歸,最後的結果都是這樣。克魯格曼在《地理與貿易》一書中就曾感歎,在社會科學中能夠被稱為“規律”的寥寥無幾,勉強能稱得上“規律”的,和現實世界擬合得也很不好,唯獨這個“異夫規律”,居然和現實世界幾乎擬合得天衣無縫。

為什麼會出現這一規律呢?
按照異夫的解釋,這是因為“最小努力法則”(principle of least effort)。人生來是懶惰的,能省事就省事。我們頻繁地使用有限幾個辭彙,是因為這樣不用太動腦筋。
我們都願意住在大城市,是因為大城市裏生活舒適。異夫的這一觀點只是他自己的臆想。他並沒有給出嚴密的數學證明。從直覺來說,他的說法站不住腳。喬伊絲可不是一個懶惰的作家,他有意地炫耀自己的才華。具有冒險精神的年輕人才會到大城市,懶人很可能會選擇生活在小城市裏。

“異夫規律”的背後,揭示的是一種人類社會的內在秩序。早在異夫之前,義大利經濟學家帕累托就曾經指出,一個社會中,個人的財富排序和其擁有的財富數量之乘積幾乎是一個常數。第2名富翁的財富大約為第1名的1/2,第3名富翁的財富大約為第1名的1/3,以此類推。
這意味著,富有的人極其富有且為數極少,貧窮的人一無所有且人數眾多。1906年,帕累托寫到,在義大利,20%的人口擁有80%的土地。這啟發了一位做管理諮詢的專家Richard Koch。
他在1997年了一本暢銷書《80/20定律》,將帕累托的思想幾乎推廣到極致:80%的工作是由20%的人完成的(你我都在這20%之內);80%的利潤來自20%的客戶;80%的抱怨也來自20%的客戶;80%的電視觀眾只看20%的電視節目;80%的豔遇來自20%的“把妹達人”,等等。

有意思的是,“異夫規律”和“80/20定律”不僅僅出現在人類社會中,在自然界裏也時常可見蹤影。帕累托自己發現,他花園裏80%的豆子來自20%的豆莢。

“異夫規律”和“80/20定律”說的是同樣一件事情:即一個變數和另一個變數的冪成反比,這被稱為“冪定律”(power laws)。

冪定律無處不在:小的地震每時每刻都在發生,但我們幾乎感覺不到,大的地震發生的次數很少,但帶來的破壞力巨大。小的森林火災時有發生,但大多數時候會自生自滅,大的森林火災發生的次數很少,但一旦失控,有可能將整個森林燒掉。

這一切無法僅僅用“最小努力法則”來解釋。這一切很可能無法用經濟學家所熟悉的“動機決定行為”的理性選擇套路來解釋。統計學的“正態分佈”在這裏徹底失靈。“正態分佈”預言的是一個趨向中庸的社會:天才很少、傻瓜也很少,出現最多的是你我這樣的凡人。“異夫規律”則預言的是一個趨向極端的世界,少數壓倒多數,少數統治多數。
如何解釋“異夫規律”和“冪定律”?有的學者看到了其中的“隨機遊走”,有的學者強調在演進過程中的積累,有的學者認為這代表了自然的常態,有的學者預言這意味著最後會出現革命。我們至今還無法找到一個統一的理論,解釋這種現象的內在動因。但是,就思想的探索而言,“異夫規律”告訴我們,在我們熟悉的經濟學世界之外,還存在著很多平行宇宙。

【作者注】本文參考了Alex Bellos, Through the Looking-glass: How Life reflects numbers and numbers reflect life. 這是一本關於數學的科普讀物;以及M. E. J. Newman (2005), “Power laws, Pareto distributions and Zipf's law”, Contemporary Physics, Sep/Oct 2005, Vol. 46 Issue 5, p323-351.
Zipf的主要著作包括1941年出版的National unity and disunity, 以及1949年出版的Human behavior and the principle of least effort. 亦可參閱:Richard Koch, The 80/20 principle: The secret of achieving more with less, Nicholas Brealey Publishing. 國內有多種中譯本。

___

陳志龍:

人為恣意製造的「數據法則」,在資本市場的引用作為「遊戲規則」,讓台灣的教育界,沈迷於這些「偽規則」,而為資本市場的炒作經營美式財富遊戲。
發展出「傑出教師獎」、「傑出期刊獎」,仔細想想,這中間有多少不是玩真的比賽;而是有如玩假規則的「勾串共謀遊戲」。

這也讓教育界發明了「被引用次數」,利用「數據」,而大發利市。也是前教育部長蔣友寧的「掛名部長」之爭議所在。

其實,利用數據的「形式辯證」,無所不在。

當本體世界中,被「這種辯證」所推銷而迷惑,後者就可以用此來炒作利潤與盤剝、「御使」、「馭駛」我們正常的腦。

這類的「形式辯證泡沫家」,
他們以的正面命題、反面命題、命題,透過不同形式,

來展現他們是「人群的優秀者」,但其實未必。




作者簡介

陳志龍教授
德國法蘭克福大學法學博士
國立臺灣大學法律學院刑法學教授
臺灣財經刑法研究學會理事長
臺灣大學法律學院歐盟法中心主任
衛生署訴願審議委員會委員
法務部刑法研究修正小組委員、犯罪研究中心研究委員

專長:刑法、、法律社會學、財經刑法、生物科技刑法



分享出去: