本福特定律和齐夫定律是一回事吗

关于本福特定律的简单解释和推导,参见:
https://zhuanlan.zhihu.com/p/440462854

思考本福特定律,与齐夫定律对照,它们之间似乎可以相互推导,是真的吗?

本福特定律说首数为 n n n的概率: P ( n ) = log ⁡ 10 n + 1 n = log ⁡ 10 ( n + 1 ) − log ⁡ 10 n P(n)=\log_{10}\dfrac{n+1}{n}=\log_{10}(n+1)-\log_{10}n P(n)=log10nn+1=log10(n+1)log10n

写成连续的形式: P ( x ) = log ⁡ 10 ( x + 1 ) − log ⁡ 10 x P(x)=\log_{10}(x+1)-\log_{10}x P(x)=log10(x+1)log10x

从这个形式上看,它是一个定积分 ∫ x x + 1 log ⁡ 10 e n d n \displaystyle\int_x^{x+1}\dfrac{\log_{10}e}{n}dn xx+1nlog10edn 。设不定积分式为 F ( x ) F(x) F(x),则:

F ( x ) = ∫ log ⁡ 10 e x d x F(x)=\displaystyle\int\dfrac{\log_{10}e}{x}dx F(x)=xlog10edx

积分 F ( x ) F(x) F(x)实际上就是所有首数字概率的积累分布函数,其概率密度函数为一个反比例函数:

f ( x ) = log ⁡ 10 e x f(x)=\dfrac{\log_{10}e}{x} f(x)=xlog10e

从本福特定律的概念上讲,首数字为 n n n的概率可以写成两种形式:

  • 定积分的形式: P i n t ( n ) = F ( x ) ∣ n n + 1 P_{int}(n)=F(x)|_n^{n+1} Pint(n)=F(x)nn+1
  • 概率密度的形式: P p r o b ( n ) = f ( n ) P_{prob}(n)=f(n) Pprob(n)=f(n)

连续化是为了拟合微积分计算,回到离散的形式:

P p r o b ( n ) = f ( n ) = log ⁡ 10 e n P_{prob}(n)=f(n)=\dfrac{\log_{10}e}{n} Pprob(n)=f(n)=nlog10e

扫描二维码关注公众号,回复: 13500267 查看本文章

换一种写法:

P p r o b ( n ) × n = log ⁡ 10 e P_{prob}(n)\times n=\log_{10}e Pprob(n)×n=log10e

这看起来符合齐夫定律。来看下是不是。

经过了连续~离散变换,连续情况下的反比例形式不能用于离散情况的计算,只能直观理解 P ( n ) × n = 常 数 C P(n)\times n=常数C P(n)×n=C。现在直接从本福特定律的结论入手,实际计算一下:

P ( n ) × n = n × log ⁡ 10 n + 1 n = log ⁡ 10 ( n + 1 n ) n P(n)\times n=n\times \log_{10}\dfrac{n+1}{n}=\log_{10}(\dfrac{n+1}{n})^n P(n)×n=n×log10nn+1=log10(nn+1)n

设:

g ( n ) = ( n + 1 n ) n g(n)=(\dfrac{n+1}{n})^n g(n)=(nn+1)n

g ( n ) g(n) g(n)快速逼近 e e e,但仅在 n n n取1~9时, g ( x ) g(x) g(x)有意义,分别为:

g ( 1 ) = 2 , g ( 2 ) = 2.25 , g ( 3 ) = 2.37 , g ( 4 ) = 2.44 , g ( 5 ) = 2.48 , g ( 6 ) = 2.52 , g ( 7 ) = 2.54 , g ( 8 ) = 2.56 , g ( 9 ) = 2.58 g(1)=2, g(2)=2.25,g(3)=2.37,g(4)=2.44,g(5)=2.48,g(6)=2.52,g(7)=2.54,g(8)=2.56,g(9)=2.58 g(1)=2,g(2)=2.25,g(3)=2.37,g(4)=2.44,g(5)=2.48,g(6)=2.52,g(7)=2.54,g(8)=2.56,g(9)=2.58

log ⁡ 10 x \log_{10}x log10x单调递增,计算 log ⁡ 10 g ( 1 ) \log_{10}g(1) log10g(1) log ⁡ 10 g ( 9 ) \log_{10}g(9) log10g(9)的值,分别为:

log ⁡ 10 g ( 1 ) = 0.301 \log_{10}g(1)=0.301 log10g(1)=0.301
log ⁡ 10 g ( 9 ) = 0.411 \log_{10}g(9)=0.411 log10g(9)=0.411

它们相差非常小,可近似为符合齐夫定律。

这是为什么?

通过上述推导, P i n t P_{int} Pint P p r o b P_{prob} Pprob是可以相互转换的,只要可以将事情抽象成 P i n t P_{int} Pint的定积分形式,结合概率密度函数和积累分布函数的概念,一定可以通过求导换算成 P p r o b P_{prob} Pprob,后者正好是一个反比例函数。这意味着位标 x x x与函数值 f ( x ) f(x) f(x)的乘积是一个常数,这是满足齐夫定律的条件。

那么齐夫定律的典型case,城市人口问题是否可以写成类似 P ( n ) = log ⁡ 10 n + 1 n P(n)=\log_{10}\dfrac{n+1}{n} P(n)=log10nn+1的形式呢?是可以的。

城市人口来自于外来者的定居(城市没有土著,土著是乡村的概念),一个人选择哪个城市定居取决于多个维度,列如下:

D 1 = 生 活 环 境 D_1=生活环境 D1=
D 2 = 工 作 机 会 D_2=工作机会 D2=
D 3 = 子 女 教 育 D_3=子女教育 D3=
D 4 = 生 活 设 施 D_4=生活设施 D4=
D 5 = 医 疗 资 源 D_5=医疗资源 D5=

设人们有 N N N个城市 C i C_i Ci可选,它们综合排名如下: C 1 > C 2 > C 3 . . . C N C_1>C_2>C_3...C_N C1>C2>C3...CN,人们选择定居地时,会在这 N N N个城市中考虑 D i D_i Di

  • i < j i<j i<j,则优先考虑 C i C_i Ci

若问是什么初始因素导致了城市规模的初始差异,就要涉及优先依附原则了,这又要牵扯到无标度网络的生长动力学,本文不谈这些,所以直接假设了排名。

D i D_i Di几乎每人都会考虑,但 D 2 D_2 D2 D 3 D_3 D3可能有人不关心。终于,可以将所有人按照下列方式分类:

  • 只考虑 D 1 D_1 D1的人。
  • 同时考虑 D 1 , D 2 D_1,D_2 D1D2的人。
  • 同时考虑 D 1 , D 2 , D 3 D_1,D_2,D_3 D1D2D3的人。
  • 同时考虑 D 1 , D 2 , D 3 , D 4 D_1,D_2,D_3,D_4 D1D2D3D4的人。
  • 同时考虑 D 1 , D 2 , D 3 , D 4 , D 5 D_1,D_2,D_3,D_4,D_5 D1D2D3D4D5的人。

无论如何,对于任何维度,排名靠前的城市一定被优先考虑。

进行下面的类比:

  • 把上述考虑维度 D 1 , D 2 , D 3 , . . . D_1,D_2,D_3,... D1D2D3...看作自然数集首数概率问题中的个位,十位,百位…
  • 把上述待考虑城市 C 1 , C 2 , C 3 , . . . C_1,C_2,C_3,... C1C2C3...看作自然数集首数概率问题中的 1 , 2 , 3 , . . . 1,2,3,... 123...
  • 把上述待定居人们的分类看作自然数集首数概率问题的个位数,十位数,百位数…

显然可以导出遵循齐夫定律的城市规模分布同样也遵循本福特定律:

  • n n n大城市的人口占比: P = log ⁡ N n + 1 n P=\log_N\dfrac{n+1}{n} P=logNnn+1

浙江温州皮鞋湿,下雨进水不会胖。

猜你喜欢

转载自blog.csdn.net/dog250/article/details/121647252