变分:一个通往力学、控制、深度学习的桥梁

柏舟   新冠5年 12-19

我们看以下公式:

  1. 首先是曲线长度,曲线方程定义为y(t)
\[ J(t,y(t),y'(t))=\int \sqrt{1+y'(t)^2}dt \]
  1. 然后是拉格朗日力学
\[ J(t,h,v)=\int (T-V)dt=\int \left(\frac{1}{2}mv^2-(-mg)h\right)dt \]

物理里面各种哈密顿量这里就不写了。

  1. 最优控制中,定义如下的控制目标
\[ J(x(t),u(t))=\int_0^\infty L(t,x(t),u(t))dt \]
  1. 再看神经网络,以MSE为例
\[ J=\sum_{i=1}^n (x_i(t)-\hat x_i(t))^2 \]

这里的 \(x_i(t)\) 指样本值,t是输入, \(\hat x_i(t)\) 是神经网络预测量。假设真实的分布是空间的一个曲面S,数据集其实只是一个采样。我们稍微改写一下,

\[ J=\int_S (x(t)-\hat x(t))^2 dt \]

假如我们可以遍历真实世界的所有数据,然后做一个函数拟合,让它们的距离最小,就可以得到上面这个式子。

变分

明白了吗,不管是两点之间直线最短、力学还是神经网络,最后都是求解一个泛函问题,都可以归结到一个数学工具下面。因为它们都是求解一个优化问题。虽然牛顿力学表面上看是一个微分方程,但是大自然中好像有一种无形的力量,让万物朝着最节省的方向移动,不管是光线沿直线传播、折射还是引力透镜,连人类社会也是如此。将T表示为成本,V表示为价格,那么J就是利润,自然就像商人一样斤斤计较,要将利润最大化。可以说,变分的思想,从力学到经济无处不在。

也就是说优化其实是一种自然的思想,它不仅体现于自然中,也体现于各种人造物中,比如控制、神经网络等等。虽然神经网络的优化函数是泛函的形式,但是它并不能根据拉格朗日方程求解。

这里展示一下物理中拉格朗日方程的应用,将上面的h换成q。根据拉格朗日方程,J取得最小值的必要条件是

\[ \frac{d}{dt}\frac{\partial L}{\partial \dot{q}}-\frac{\partial L}{\partial q}=0 \]

以一个简单的保守系统 \(L = T(\dot q) - V(q) = \frac{1}{2}m\dot q^2 - (-mg)q\) 为例,可以得到

\[ m\ddot q=-mg \]

就是牛顿力学的一种形式。

但是神经网络求导根本没用:

\[ \frac{\partial L}{\partial \hat x_i}=\frac{\partial (x_i(t)-\hat x_i(t))^2}{\partial \hat x_i}=0 \]

在每个样本点的导数都为0,这个真是听君一席话,如听一席话,因为当你用优化器直接优化MSE时,模型就是沿梯度下降,当下降不动了,自然各个样本的方向都为0了。

量子神经网络

那么有没有一个例子能够将物理和神经网络联合起来呢?我们知道对应一个未知的事情,假如存在一个已知的东西与它一一对应,那么它们的性质是一样的。我在推荐《安克创新访谈》中谈到,其实现在的量子计算机、DNA计算机等等,和目前基于布尔计算的经典计算机的思路是完全不一样的。假如我们能够找到一种方法,将未知的问题转化为一个物理试验,通过观察试验的结果映射回问题的答案,那么我们就可以完成一次计算。

那么有没有一个通用的映射思路呢?有的,就是变分,只要J的结构相同,边界条件相同,那么这个问题就是同构的。也就是说,对于任意的优化问题,你如果能找到自然界中对应的物理现象,它们的J数学形式一样,你就可以借助自然无形的手完成计算。但很遗憾的是自然是确定的,并不能根据人的意愿构造J,当然这是一个非常哲学和科学的问题,如果存在这么一个手段,那么我们可以任意的塑造自然。

刚好现成的就有一个范例,据我了解现有的量子计算有两条实现路径,一条是光量子计算,另一条跟超导量子芯片有关。它们大致的原理是输入一堆光子或其它物理粒子,然后经过中间的黑盒,可以是一连串的分光仪,或者量子芯片的线路,最后通过一堆离散的出口的测量仪器进行测量。多次试验得到统计结果。忽略中间过程,就是固定的输入,不同的输出,但是输出有一定的统计规律。

我们知道图片分类是深度学习中一个常见的问题,假如我们可以将图片的像素编码成输入的粒子,最后统计离散的测量结果,并且结果的分布和数据集的分布恰好一致,那么这个量子计算的结构恰好可以计算这个图片的分类任务。

所以,这个任务就变成了调黑盒的物理结构,让结构和数据集的误差最小。量子神经网络这个例子,将自然规律、神经网络和计算联系到一起。你想,如果量子计算证明是图灵的,也就是说只要问题可以计算,就能自然地求解。反过来说,只要满足一定的条件,就可以任意的塑造自然。

这就是变分的强大之处,你看看今年的诺贝尔奖(颁发给神经网络),和前几年颁发给复杂科学的诺贝尔奖,其实物理、计算都是一体的。

我所了解的量子计算发展情况

光量子计算不太行,调分光仪得手调,根本达不到计算的要求,但是用微机电加工说不定可以自动调。而量子芯片的技术路线可以调节内部的通道改变是主流的技术路线。

目前的量子比特在400个左右,明面上可以编码的像素很有限,但是可以训练一个encoder。

注:

  1. 我发现忘说概率和变分的关系了。
  2. 如果以上内容无法理解,看看市场经济和计划经济,市场无形的手是怎样完成计算的。