周人的忧患观:战战兢兢,如履深渊,如履薄冰。
Go和Rust这类错误处理方式需要显式处理错误。优点是错误类型都是显式定义的,缺点是会污染所有后续的函数,并且影响调用栈,很难调试。
区别:是否存在先验的模型,奖励函数是否可观测。有无足够的信息决定了最终是否需要平衡搜索、当前收益和未来。
从泛函的向量空间理解LQR,以及对张量的协变、逆变的理解。
AlphaZero是一种以MCTS为基础的使用模仿学习的强化学习方法,适用于奖励函数难以建模的情形。国际象棋动作空间建模很复杂。复现策略拟合还算成功,但是局势判断拟合失败。
我的哲学体系解决两个时代问题:人工智能意味着什么?现代文明是什么?
把线性代数、常微分方程、自动控制原理连续起来,简单举了一个物理一个赛博的例子。