[返回科技频道首页]·[所有跟贴]·[ 回复本贴 ]·[分区新闻]·[繁體閱讀]·[版主管理]
并不神秘的AlphaGo Zero
送交者: entanglegeogeo[御史大夫★★★☆] 于 2018-02-13 8:22 已读 1056 次  
去年AlphaGo Zero的成功,曾经激起了一波包含各种情绪的争论,现在DeepMindI已经解散了这个项目,逐渐沉寂下来,

这里我可以简单分析一下为什么AlphaGo Zero虽然是AI历史的里程碑,但并不是AI能力的里程碑,这个系统并不神秘。




先看一下系统的结构,这个系统总体分为两个计算模块:




(1)估值与策略网络

这是一个采用ResNet的卷积网络,主要目标是对当前盘面的胜率进行判断并对可能的应对招法进行估值。简单理解,

这等价于人类棋手的盘面判断系统。




(2)MCTS,蒙特卡洛树搜索

这个模块主要扮演人类对弈过程中的多步计算功能,即考察多个回合的不同的应对招法的后果,然后根据这些可能的后果

来选择胜率最大的招法。算法上这个过程可以理解为一个使用前面的估值网络的结构构造的非参数化的message passing inference.




再看一下系统的训练过程,简单的说就是自对弈。基本步骤是

(1)根据当前的估值网络进行自对弈,产生大量对局。

(2)根据对局过程和结果对估值网络进行训练更新,可以理解为挑选胜方的招法作为胜率更高的招法来训练网络。

(3)重复这个过程直到网络参数收敛。




简单吧。




为何这个简单的系统可以在仅仅70个小时的训练后就超越人类顶尖棋手?作为技术人员,关心的是为何这个系统可以

这么稳定的收敛到一个非常优化的结果。




如果有人听说过对抗网络GAN,那么实际上AlphaGo本质上就是一个对抗网络,并且是一个非常好的满足了GAN的收敛条件

的网络。GAN的训练之所以困难,本质原因在于

(1)系统的生成器G和判决器D之间不能很好的匹配

(2)系统的信息传递通道过长,训练数据信息要先传导到D,然后反向传导到G,使得信息的传递不畅或者说梯度信息

在传递过程中被严重弱化从而导致G收敛性能不佳。




AlphaGo Zero很幸运的解决了这两个问题,

(1)AlphaGo Zero作为GAN,其G和D都构造于同一个估值网络,所以G,D匹配良好;

(2)系统的信息传递同时传给了G,D,并且其传输路径被缩短,只要传到了D,就同时传到了G。




另外一个非常重要的原因是,围棋这种有固定规则的状态空间有限的系统本身具有良好的特性,使得系统的收敛性得到保证。

如果换到开放式的状态空间更复杂的游戏,则其效果将大打折扣。




总结一下,AlphaGo Zero只是一个非常特殊的问题环境下的一个非常特殊的系统结构,其良好的性能是可预期的,这种

能力不具有良好的泛化推广能力。

评分完成:已经给 entanglegeogeo 加上 200 银元!





喜欢entanglegeogeo朋友的这个贴子的话,[请点这里投票,“赞”助支持!]
[举报反馈]·[ID前期主贴发言]·[返回科技频道首页]·[所有跟贴]·[-->>回复本贴]· [-- 登录后分享可获积分 --] ·[返回前页]
贴子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟贴:        ( 提醒:主贴楼主有权将不文明回复的用户拉入他/她的黑名单,被多名主贴网友标记为黑名单的ID将被系统禁止在本栏目的回帖评论;)


加跟贴(积极回贴支持发贴的朋友,才能欣赏到更多精品好贴!)

用户名:密码:[--注册ID--]

标 题:

[所见即所得|预览模式]  [旧版发帖帮助]  [所见即所得发帖帮助]

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画 插入音乐插入音乐  插入视频


 发布前预览  图片上传 Youtube代码生成器

楼主前期本版热贴推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]