以信息论的角度解读奥卡姆剃刀原理

柏舟   新冠4年 10-03

从古至今,人似乎一直在追求规律,一种可被认识、可重复的东西。无论是宗教、哲学还是自然科学和社会科学,我认为,人一直追求的本源是一种通用的、人能够掌握的能够实现任何愿望的方法

奥卡姆剃刀原理“如无必要,勿增实体”,虽然在中世纪就提出来了,并且做了很多名和象的讨论。但是,真正建立科学方法论是到了伽利略那个时代。自从牛顿之后,人们建立了对力和运动定量的描述,此后出现了一种机械的时空观:状态+规律=未来。通过更准确的测量状态,更准确的规律来预测未来。无论是之后的测不准定律还是混沌都没有打破这个根本的想法,即使部分存在未知性,人也有办法短期预测未来,最终人能够通过预测未来来实现愿望。

但是为什么预测未来就能实现愿望呢?因为既然能够预测未来,就能预测人的思想,它认为人的自由意志不存在,所以人没有愿望,就不存在这个问题。当然,人的意志是什么,能不能预测又是一个未知的问题,我记得《人类简史》有更加深入的解读。这篇文章主要讨论的是通过逻辑推理的方式是必定无法探究本源的

信息论重要的概念:信息熵含义和数据不等式

信息熵反映了信息量的大小,信息熵的定义:

\[ H(X)=\sum_{x\in \chi}{-p(x)\log p(x)} \]

当熵越大就意味着不确定性越大,比如一个0.47bit的信息就比1bit的信息不确定性低。通过计算,对于抛硬币这种p=0.5的二项分布来说,H(X)=1bit;但是当p=0.9时,H(X)=0.47bit。

如果Z的条件分布仅依赖于Y的分布,而与X是条件独立的,则称随机变量X,Y,Z依次构成马尔可夫链X->Y->Z。它有一个性质:

\[ I(X;Y)\ge I(X;Z),即H(X|Y)\le H(X|Z) \]

假如记世界的规律为θ, 部分现象为X,统计得到的规律为T(X),即得马尔科夫链:

\[ \theta \to X \to T(X) \]

可以发现:

\[ H(\theta|X)\le H(\theta|T(X))\le H(\theta) \]

即通过观察和分析,我们确实能够消除规律θ的一部分不确定性,但是消除部分受观察的样本X限制。如果需要完全掌握规律θ,就需要观察θ对应的所有现象X,并且当且仅当中间不损失任何信息才能掌握规律T(X)=X=θ。

逻辑推理一定会有信息损失

假设世界存在本源A,并且本源是无限的。通过这个本源的规律衍生出来了B、C、D等现象。人通过观察现象得到BX、CX、DX的规律,然后通过逻辑推理的方式获得规律A‘。

flowchart TD; A --> B & C & D; BX & CX & DX --> A1["A'"];

在这个过程中,通过现象B到总结BX规律是一定有信息损失的,我认为任何一个现象和场景(B,C,D)的信息是无限的,无论是接受信息还是对现象进行认识和抽象,信息(BX,CX,DX)就变得有限了。从更多的规律来推测本源A确实是可以更接近的还原本源A的全貌的,但是永远不可能还原A本身。

是否存在有限的本源?

DNA通过自组织的方式衍生出了万物,即DNA的规律“有限”:

但是数据不等式仍是存在的,在衍生的过程中一定引入了其他环境信息才能形成如此复杂的系统。并且这引出了一个有趣的问题,如果人和人的衍生物存在极限,那么究竟是被DNA的本源规律限制还是被信息损失限制,或者其他限制?

归纳方法

人除了逻辑推理还能通过归纳的方法认知世界。比如:

归纳是一个神奇的东西,它不像逻辑那样有很严密的数学基础(数学是什么?),就好像人“凭空”冒出一个想法,揭露了世界的本质。但是这并不意味着数据不等式错了——人的任何想象都是离不开人的经历,人是不可能从虚无中产生任何想象的。所以人的想象是什么?人似乎存在一种非逻辑的思考方式,能够从自然中归纳一些东西,但是这种方式并没有很好的被认识。

总结

如无必要,勿增实体其实跟数据表达式有区别,前者更强调一种思想,而后者是一种规律:我们没有能力认识事情本身,任何在事情上发散都不是消除事情本身的不确定性,而是引入经验(先验知识)来消除不确定性,也就是说我们总是拿着自己的“偏见”认识新的事物。这也揭示了一些有趣的结论: