【漫士】世界是对数的……吗?为什么?

📌 【漫士】世界是对数的……吗?为什么?

來先看一段視頻

哎等會這個問題我略知一二為什麼這個世界的許多數量比如財富粉絲亮度等等都是取對數後接近均勻分佈的呢為什麼這樣的分佈就會遵循本福特定律又為什麼很多其他常見的分佈比如高斯分佈不滿足取對數之後均勻呢究竟是什麼機理導致這兩種分佈的區別在這期視頻裡我將會為你揭開背後的謎團而問題的答案其實就蘊藏在非常簡單的算術上點贊收藏數學啟動讓我們先從畢導視頻裡的本福特定律說起本福特定律說這個真實世界的各種數字比如人口財富粉絲數等等首位數卻並不是19均勻的總有三成左右都是1為什麼這個世界這麼偏愛1呢其實啊大自然又不是人沒有偏愛的說法問題的關鍵就在於分佈這是全世界所有國家的人數接下來呢我們可以按照首位數字統計一下你會發現的確30%左右的國家首位數都是1為什麼呢我們可以把這些人口畫成直方圖長成這樣現在讓我把橫坐標的範圍改成以10為底的對數坐標這意味著此時橫坐標增加一人口數是乘以10而不是像往常那樣增加一個什麼常數此時你會發現這些國家從密集的堆積在原點附近變成比較均勻的散布在數軸上現在讓我們看看人口從100萬到1000萬的這些國家100萬到200萬的這一段人口數的首位數是1而從200萬到300萬的這一段首位數是2剩餘呢以此類推你會發現儘管每一段人口的跨度都是100萬但是因為在對數坐標下從k個100萬到k加1個100萬乘以的倍數卻會越來越小而這個倍數正對應於這個區間在對數坐標下往右的跨的距離所以你可以顯著看到不同的首位數字對應的區間是越來越窄的100萬到200萬這段長度是log102而首位是2的就只有log103/2以此類推因此如果一個分佈是對數均勻的也就是說在對數坐標下是幾乎平滑的分佈那麼落入這些區間的國家數量的比例就約等於區間長度的比你能非常顯著的看出來為什麼1這麼有優勢了因為直接計算1這一段區間的長度是log102正好等於0.301所以在同樣位數的每一段中1首位的數字都會佔這個比例更加的有優勢所以總的來說1開頭的數據就總會差不多佔總量的30%出頭這就是我們在本福特定律裡所看到的各種數據裡首位1出現的神奇比例了所以說白了本福特定律的核心就是如果數據的跨度非常的大而且在對數的坐標下分佈的很均勻那麼首位是1的這段區間天然就是更寬闊的落入這些區間的數字比例一定更高而且從這個角度出發你也能立刻明白本福特定律並不要求數據在對數坐標下均勻的非常嚴格只需要每一小段變化比較緩慢那麼一開頭的這些區間長度的優勢就能導致落入這些數據更多而比例接近30%而且你還能夠明白因此對本福特定律來說單位或者进制也一點都不重要換一個进制或者單位無非是橫坐標縮放了一下區間數量不再是10個但首位一區間的主導性依然存在那麼接下來就是視頻開頭的問題為什麼真實世界總是在對數坐標下很均勻呢答案是這句話是錯的真實世界並不總是在對數坐標下均勻舉個例子全世界成年人類的身高分佈就一點都不對數均勻而是非常的尖銳99.9%看這期視頻的觀眾的身高在國際單位制下首位數字都是1而如果換成30.48厘米為單位的英尺大家的身高首位基本上都是567幾乎不存在一英尺30cm或者10英尺3米高的成年人溫度更是如此現在中國絕大多數地區的氣溫都是二三十度左右十幾度和一百度的地區絕對不會像本福特定律那樣超過30%所以到底這個世界是不是遵循本福特定律呢這個問題啊其實不該這麼問因為這個世界上就是有兩大類概率分佈一類比較有界和聚集產生特別大樣本的可能性非常非常的小這裡每一個泡泡就是從這種分佈裡採樣得到的樣本半徑越大則這個樣本越大你可以看出所有的泡泡基本上都差不多大這被稱作輕尾分佈代表呢就是我們熟知的正態分佈而另一類則是有著長長的尾巴有著顯著的概率產生很大的樣本而且有經典的二八定律那就是20%的樣本會佔據80%的總量這類分佈叫做長尾分佈典型的例子是帕累托分佈和對數正態分佈而本福特定律主要針對的正是後者的長尾分佈該怎麼體會和理解這兩類分佈的差異呢謎底就在迷面上看這個概率分佈的尾巴一開始在網絡科學的學習時我很疑惑一個概率分佈那麼複雜為什麼只看很遠很遠的尾巴呢其實通過看一個概率分佈的尾巴我們能得到很深刻的信息例如這是兩個經典的輕尾和長尾分佈的例子現在我們不斷的往右看並同時動態的調整y軸的比例來看一看越來越遠的尾巴的形狀你發現了什麼沒錯隨著我們把視野越來越向右推輕尾分佈的圖像會越來越陡峭幾乎變成了一面垂直的峭壁而長尾分佈呢則越來越躺平幾乎變成了一條水平的直線這就是他們的名字來歷一個尾巴越來越輕而另一個越來越重越來越長在數學上這有一個嚴格的定義那就是已知x大於一個很大的t那麼x大於t再加上一段a的可能性是越來越接近於一還是0如果是0意味著一個很大的樣本幾乎不可能更大那麼就是輕尾的而如果是1意味著一個很大的數字以極大的概率會更大那麼就是長尾分佈這個數學式子很抽象但帶入一些實際情況就很容易理解了想像一下有個人身高大於一米5那加個30厘米他身高大於一米8的可能性怎麼樣呢嗯可能有點吧但如果已知這個人比姚明還高身高已經超過了兩米26那再加個30厘米我們不太會相信這個人有兩米56這就是輕尾分佈的特點對於已經很大的數值我們會越來越覺得啊差不多得了不可能更大了但長尾分佈則不然想像一下一個人已經有至少10萬存款在這個基礎上加10萬有20萬存款的概率不算很高但如果一個人已經有了至少一個小目標的存款那對他來說存款超過一億加上零十萬幾乎是板上釘釘的事長尾分佈的特點就是如果已經知道一個數字很大那麼他大概率會比你想像中更大有錢的人大概率會比你想像中更有錢下棋厲害的人大概率會比你想像的還厲害計算的變化更多已經等了很久沒有回复的表白大概率要等更久正是因為長尾分佈的這個特性造就了它非常有多有趣的現象首先尾巴大就意味著有很大的概率產生非常巨大的巨無霸樣本這就造就了我們熟知的powerlaw又稱冪律定律二八定律這些排名前20%的巨無霸會佔據所有樣本總和80%以上看看這個社會的財富視頻的播放量或者是學術論文的引用他們都符合二八定律問題來了為什麼這個世界有那麼多的長尾分佈呢好問題回答了它我們其實也就順便回答了為什麼長尾分佈滿足本福特定律而這個問題的答案很簡單因為這個世界的很多數量來自於一系列的乘法當變化量正比於已有總量時就會出現長尾分佈什麼意思呢比如財富你仔細想一想一個幾千萬資產的人他的收入和打工人一樣是每月幾千嗎當然不是大概率也是百萬這個量級財富的增值靠的是投資而每次投資都是論收益率的收益正比於已有本金這就意味著總財富來自於一系列收益率的乘積而不是每次工資的加和同樣的一個國家如果經濟發展環境安定它人口的增加量等於出生率乘以總人口所以同樣是正比於總數的所以國家人口也是一系列數字的乘積而非加和宇宙中星體的質量也是如此越大質量的天體在形成初期越能吞噬更多的星雲所以宇宙中天體的質量乃至能量亮度等等也是長尾分佈up主的播放和漲粉量在飽和之前正比於已有的粉絲量等等等等這樣的例子還有很多歡迎在評論區補充這種特性和我們在概率中學習的正態分佈有著很大的區別它最終量的形成過程來自於一系列獨立變量的乘積而非加和我們在概率論中學過哈拋硬幣假設正面是1反面是0把1000次拋硬幣的數字加到一塊得到一個總和這些總和會符合一個鐘型曲線的分佈也就是高斯分佈它的中心位於500左右對稱寬度只有幾十而已也就是說你幾乎不可能在1000次當中得到少於400或者多於600次正面這個結論叫做中心極限定理最終的分佈叫做正態分佈但我們如果從1開始拋出硬幣的正面乘以2反面乘以0.5那麼此時的情況就會非常不同了拋100次硬幣所得到的最終的數字變成了一個明顯有些偏斜的分佈而且會有壹些非常大的樣本存在事實上這種分佈有一個專門的名字叫做對數正態分佈lognormaldistribution之所以叫這個名字就是因為在對數坐標下這個分佈就會變成一個非常漂亮標準的正態分佈這也不難理解我們最終的結果來自一系列獨立變量的乘積所以取對數之後最終結果的對數等於一系列獨立變量的加和而這正是前面中心極限定理提到的結論是一個正態分佈我們因此就證明了為什麼一系列獨立變量的乘積它得到的對數是一個正態分佈總而言之正是因為這種變化量正比於已有總量的特點使得自然界的很多數量變化來自一系列數量的相乘而非相加他玩的是這個乘除法的遊戲這就導致了長尾的對數正態分佈它跨度很大而且在對數坐標下分佈的比較均勻平滑進而導致了本福特定律與之相應的如果你玩的是一個加減法的遊戲那麼你所出現的就是正態分佈它是一個輕尾分佈尾巴很短數字非常非常的聚集當然了以上這套解釋並不能解釋世界上所有的數據為什麼都是對數均勻的比如說物理學常數我們又確實沒法分析背後有什麼乘法累積的特性和機理但是它的確可以解釋很多我們實際生活的過程裡為什麼會產生這種滿足對數均勻和本福特定律的分佈更有趣的是這也能扣回到人類感知的韋伯費歇納定律人類感知的敏銳程度也是正比於已有的感知刺激的以重量為例科學家實驗表明當你的手上已經有重物的時候增加的重物必須達到已有重物質量的大約1/50才會有感覺這意味著空手給你一個雞蛋你會有明顯的感覺但如果你已經拎了一個10斤的重物裡面再塞一個雞蛋你就會渾然不覺人類的感知也是乘法的為了適應自然界這些大量存在的對數正態分佈人類感知的尺度居然也自然的調整到了對數坐標下只有強度乘以一個倍數才會讓我們的感覺上一個台階光強頻率酸度都是如此說到這裡整個問題已經講的差不多了但還有一些最後的疑問沒有解決人類的感知系統是怎麼產生在這種對數坐標下的尺度的呢哎我很感興趣到互聯網上搜索了一下結果發現這是一個非常深刻的問題至今仍然是未解之謎但不難猜到問題的答案肯定也和剛才提到的乘法特性和對數正態有關我們都知道神經元靠放電傳遞信號而人類大腦裡頭神經元放電的頻率居然也服從對數正態分佈也就是說絕大部分的神經元都非常的擺爛幾乎沒有怎麼活躍但有一少部分很活躍的神經元創造了絕大多數的神經活動不僅如此包括突觸連結的強度和其他神經元連接的數目這些都符合對數正態分佈人類大腦的構造和自然界的這些數據分佈出現了神奇的對偶每一個神經元對後續神經元的影響也是在他原來的基礎上乘以一個倍數那麼隨著神經網絡的傳導激活程度和放電的頻率分佈也就隨之出現對應的對數正態的特性總之這還是一個未解之謎如果將來有觀眾徹底破解了其中的密碼記得寫論文引用這期視頻給我一個八作以上就是這期視頻的全部內容如果你對這樣的數理科普感興趣還希望你能點贊支持一下或者關注我以後不迷路漫士沉思錄學海引路不辛苦我們下期再會

---

容易懂 Easy Know

你知道嗎?世界上很多數字,像是你有多少錢、有多少粉絲或一個國家有多少人,它們開頭的數字不是平均分配的,開頭是「1」的數字常常比其他的多,大概有三成!這不是因為大家特別喜歡「1」,而是因為這些數字的成長方式很特別。想想看,如果你的錢是每年賺固定薪水慢慢「加上去」的,那你的錢就會像身高一樣,大家差不多高。但如果你的錢是靠「投資」來的,錢越多賺越多,每次都是「乘倍數」成長,那麼有錢的人會越來越有錢,數字的範圍就會拉得很大。當這些數字範圍很大,而且用一種「對數」的方法來看很均勻的時候,你會發現開頭是「1」的數字區間自然就比較寬,所以掉進這個區間的數字就更多。簡單來說,有些事情是慢慢加起來的,大家就會差不多;有些事情是越滾越大、用乘法變多的,就會產生巨大的差異,讓「1」這個開頭變得特別常見喔!

---

總結 Overall Summary

這段影片探討了為何世界上許多現實數據,如財富、人口、粉絲數等,在取對數後會呈現接近均勻分佈,並因此遵循本福特定律,而另一些數據(如身高、溫度)則不滿足。核心在於區分兩類不同的概率分佈及其背後的生成機制。

首先,影片解釋了本福特定律:真實世界數據的首位數「1」出現頻率約為30%,遠高於其他數字。這並非巧合,而是源於數據在「對數座標」下呈現均勻分佈。在對數座標上,首位數為「1」的區間(例如100萬到200萬,或1000萬到2000萬)在長度上比其他首位數字的區間更寬,因此數據落入「1」開頭區間的比例自然更高。本福特定律的成立條件是數據跨度大且在對數座標下分佈相對平滑。

影片接著區分了兩大類概率分佈:「輕尾分佈」和「長尾分佈」。輕尾分佈(如正態分佈/高斯分佈)的特點是數據有界且集中,極大樣本的可能性微乎其微,例如成年人的身高。這類分佈通常由一系列「加法」過程產生。相對地,長尾分佈(如帕累托分佈、對數正態分佈)的「尾巴」很長,意味著有顯著的概率產生非常巨大的樣本,例如財富分佈符合二八定律。

長尾分佈的形成機理在於許多現實數量來自於一系列的「乘法」過程,即變化量與已有總量成正比。例如,財富增值靠投資,收益率作用於本金;人口增長率作用於總人口;甚至星體質量、網路播放量、粉絲數等。當一系列獨立變量以乘積方式累積時,其最終結果會服從「對數正態分佈」。取對數後,乘積變為加和,依據中心極限定理,其對數值便呈現正態分佈,這解釋了為何這類數據在對數座標下會呈現均勻或正態分佈的樣貌。

此外,影片還提及人類感知系統的「韋伯-費希納定律」,其敏感度與刺激量成正比,本質上也是乘法關係,使得人類感知尺度自然調整到對數座標。有趣的是,人類大腦神經元的放電頻率、突觸強度等也遵循對數正態分佈,顯示了自然界與生物感知系統之間的神奇對偶性。總之,數據分佈的差異,根本上取決於其生成過程是「加減法遊戲」還是「乘除法遊戲」。

---

觀點 Viewpoints

1 本福特定律的解釋:真實世界許多數據的首位數「1」約佔30%,原因是當數據在對數座標上呈現均勻分佈時,首位數「1」的區間(例如1到2、10到20)在對數尺度下天然更寬,導致更多數據落入其中。

2 兩種主要概率分佈:
輕尾分佈:數據集中且有界,產生極大數值的概率極低(如正態分佈,代表身高、溫度),通常由「加法」過程累積產生。
長尾分佈:數據範圍廣泛,有顯著概率產生非常大的數值(如對數正態分佈,代表財富、人口、粉絲數),通常由「乘法」過程累積產生。

3 長尾分佈的形成機制:許多現實數量變化量與其已有總量成正比,導致數值透過一系列的「乘法」而非加法來累積。例如,財富的投資收益與本金成比例,人口增長與現有總人口成比例,這類乘法過程是長尾分佈的根本原因。

4 對數正態分佈的關鍵作用:當一系列獨立變數以乘積形式累積時,最終結果會服從對數正態分佈。若對其取對數,乘積會變成加和,根據中心極限定理,其對數值將呈現正態分佈,這就解釋了為何長尾分佈在對數座標下會顯得均勻或呈正態分佈。

5 人類感知與大腦的對數尺度特性:人類感知遵循韋伯-費希納定律,感知敏銳度與刺激強度成正比,本質上是一種乘法關係,使得我們的感知系統也適應了自然界的對數尺度。此外,大腦神經元的放電頻率、突觸強度等也呈現對數正態分佈,暗示大腦運作與自然界長尾數據有著奇妙的對偶關係。

6 本福特定律對單位或進制不敏感:因為定律的基礎是對數座標下的均勻性,更換計量單位或數字進制只會縮放對數座標,而不會改變首位數字「1」區間的相對主導地位。

---

摘要 Abstract

✅ 本福特定律指出,真實世界許多數字的首位數「1」出現頻率約30%。
⚠️ 該定律適用於數據跨度大且在對數座標下呈均勻分佈的情況,因「1」的對數區間較寬。
📌 世界數據分兩類:輕尾分佈(加法累積,如身高)和長尾分佈(乘法累積,如財富)。
✅ 長尾分佈特性源於變量變化量與現有總量成正比,導致一系列數字的乘法累積。
📌 取對數後,乘積序列變成加和序列,符合中心極限定理,解釋了對數正態分佈。
⚠️ 人類感知系統(韋伯-費希納定律)也以對數尺度運作,適應自然界的對數正態分佈。
✅ 大腦神經元活動與連結強度亦呈現對數正態分佈,顯示與自然界數據的對偶性。
📌 最終,分佈差異的機理在於數據生成過程是「加減法遊戲」還是「乘除法遊戲」。

---

FAQ 測驗

1 根據影片內容,哪種生成數據的方式最可能導致其遵循本福特定律?
A 透過一系列獨立、固定數值的加法過程。
B 透過一系列數值乘法過程,其中變化量與現有總量成正比。
C 從一個均勻分佈的固定範圍內隨機抽取數據。
D 測量沒有明確增長或減少模式的物理常數。

正確答案:B
解釋:影片指出,本福特定律適用於長尾分佈,而長尾分佈通常由乘法過程產生,即數據的變化量與其現有總量成比例(例如財富、人口增長)。

2 影片中提到的「輕尾分佈」與「長尾分佈」最主要的差異是什麼?
A 輕尾分佈總是左右對稱,長尾分佈則總是偏斜。
B 輕尾分佈產生極大樣本的可能性高,長尾分佈則否。
C 輕尾分佈的數據傾向於集中在平均值附近,而長尾分佈有顯著的概率產生非常大的樣本。
D 輕尾分佈只存在於自然界中,長尾分佈只存在於人為數據中。

正確答案:C
解釋:輕尾分佈(如正態分佈)的數據通常聚集在平均值周圍,極端值非常罕見。而長尾分佈的「尾巴」較長,意味著有更高的概率會出現非常巨大的樣本值。

3 為什麼「對數均勻分佈」對於理解本福特定律至關重要?
A 因為它表示數據在正常的線性座標上是均勻分佈的。
B 因為它限制了數據的最大值和最小值。
C 因為當數據在對數座標上均勻分佈時,首位數字「1」所對應的對數區間自然較寬,使其出現的頻率更高。
D 因為它只與加法過程相關,與乘法過程無關。

正確答案:C
解釋:影片明確解釋,本福特定律的機制在於如果數據在對數座標上呈現均勻分佈,那麼首位數字為「1」的數值區間(例如從100萬到200萬)在對數尺度下會佔據更長的距離,導致更多的數據落在這個範圍內,因此「1」作為首位數字的頻率更高。

✡ Oli小濃縮 Summary bot 為您濃縮重點 ✡

https://youtu.be/AcGOrZNKUg8

*

張貼留言 (0)
較新的 較舊

廣告1

廣告2