在国际象棋上复现AlphaZero的设计和失败的心得
柏舟 新冠4年 12-19AlphaZero是一种以MCTS为基础的使用模仿学习的强化学习方法,适用于奖励函数难以建模的情形。国际象棋动作空间建模很复杂。复现策略拟合还算成功,但是局势判断拟合失败。
编程往事:从CheatEngine修改造梦西游讲起
柏舟 新冠4年 10-30我没有特别喜欢编程,却成了现在这个样子:高中的时候明知道996还去,上大学就自学了;上大学时我想算法这么卷傻逼才去,然后现在搞强化学习。真香!
AlphaZero是一种以MCTS为基础的使用模仿学习的强化学习方法,适用于奖励函数难以建模的情形。国际象棋动作空间建模很复杂。复现策略拟合还算成功,但是局势判断拟合失败。
我没有特别喜欢编程,却成了现在这个样子:高中的时候明知道996还去,上大学就自学了;上大学时我想算法这么卷傻逼才去,然后现在搞强化学习。真香!