Deepmind 刊登在Nature 的关键论文「Mastering the game of Go with deep neural networks and tree search」叙述了Alphago 的运作原理;不久,Deepmind 又在Nature 上发表了「Mastering the game of Go without human knowledge」一文,展示他们更为强大的新版围棋程式AlphaGo Zero,验证了即便在像围棋这样最具挑战性的博弈领域,也可以通过纯粹的和自己对弈之方式来达到自我完善的目的。 目前,AI 的思维方式乃使用了蒙地卡罗搜寻,结合两个深度学习神经网络。据开发公司称:其既可结合树状图的长远推算,又可像「人类大脑」一样自发地学习,进行「直觉」训练并培养「价值判断」,提高围棋实力。是否真的如此?以下简单说明: 蒙地卡罗搜寻法 (Monte Carlo Tree Search, MCTS) 用以下四个动作进行搜寻的工作: 1. 选择 (Selection):即随机选择一个子选点。 2. 扩充 (Expansion):在前述子选点下,再创建一个子子选点。 3. 模拟 (Simulation):以前述的子子选点为基础,进行一场模拟的博弈,称为一个rollout。 4. 逆向传播 (Backpropagation):将博弈的结果传输回去,建立激励的反馈,并以此更新权重。 以养鱼来比喻。假设池子里有许多鱼苗,我们的目的是培育出可以出国比赛拿金牌的冠军鱼。鱼饲料是我们可以运用的工具:先随便乱撒一些鱼饲料,看哪些鱼会来吃,这叫做「选择」;等到有几只来吃了,再喂它们多吃一粒,这叫做「扩充」;之後观察其表现,看哪几只比较朝气蓬勃,游得活蹦乱跳的,叫做「模拟」;表现好的,就记住其样貌长相,等到下一次喂食时,就把鱼饲料集中喂给这几只,叫做「逆向传播」。当然,前述的搜寻程序还是继续进行,如果在随机撒鱼饲料的过程中,又发现了新的可造之材,那麽重心就会移转到这些具有冠军潜力的鱼苗上面,除非此种情况发生,否则一开始发掘的几只鱼苗还是会持续地培育下去,把它们愈养愈大。 AlphaGo 的成功关键在於策略网络 (Policy Read more…