假如路上跑的不是汽车 而是阿尔法狗

论恒
关注

  为期一周的人机世纪大战最终以谷歌人工智能围棋手AlphaGo四胜一负完胜人类世界围棋冠军李世石9段落下帷幕,引发了全人类对人工智能的关注狂潮。 AlphaGo(阿尔法狗)的强劲表现令科技界产业界为之振奋, 而未来其所代表的人工智能(AI, artificial intelligence)技术在智能驾驶等领域的发展则更加让我们期待。 为什么这样说?我们从两个方面来聊一聊。

  第一是深度学习,从大数据中学习发掘规律。 AlphaGo和李世石对弈, 都是在决定下一个子落在哪里的问题。 一个19*19的棋盘最多就有了361种选择。 而最终的胜负是由这几步、几十步、甚至上百步决定的。 所以围棋是典型的动态决策系统, 每一步都影响了后面的结局,每下一步我们都不得不去考虑接下来的几步应该是怎么样的, 这一步落子对后面有什么影响。 这也就是咱们说的棋盘推演。若是由电脑来做推演, 去考虑落子的各种可能性,从中选出最有胜算的一招,那人还有胜算吗? 1997年‘深蓝’就是利用类似的‘穷举法’打败了当时的国际象棋世界冠军卡斯帕罗夫。围棋难就难在它的变化太多, 复杂度太高了,和国际象棋完全不在一个数量级, 就算是让深蓝用上当今最快速的硬件去硬算围棋的棋盘推演, 深蓝也只能对你说臣妾做不到呀。

人机世纪对决

  人比‘深蓝’高明的一点就是棋感。 人根据棋局评感觉, 而不必做细致的棋盘推演, 就能大概筛选出一些较好的选择; 对于走一步之后的局面, 人能大概判断出是赢面大还是输面大。所以人就避免了穷举棋盘推演, 只需针对少量的选择做些有效的搜索即能做出落子判断。从决策规划的角度考虑, 这就好比把一个动态规划的问题用近似动态规划(ADP)的方法解决了。而对棋局的简单有效的评估就类似ADP中的value function(价值函数), 落子的倾向性选择类似ADP中的heuristics(试探法)。这种valuefunction和heuristics就是围棋中的规律。 AlphaGo的成功就在于它的算法中包含了这两个规律,而不仅仅是野蛮搜索。它的规律是通过机器学习获得的, 这就是AlphaGo背后的两大技术本质:大数据和深度学习。通过学习几千万局的对弈过程数据,训练后的人工神经网络中固化了优秀棋手的落子倾向和对局面的判断能力。 这样在实时的人机对弈过程中, 其所需要搜索的空间范围已经收缩到一个可计算的范围内, 最终选定最佳落子。 而深度学习持续不断的学习对弈数据, 使AlphaGo始终保持进步。

  二是数据、学习与互连,让AI做你的智能驾驶司机。AlphaGo的胜利只是针对一个博弈游戏,但是AlphaGo的算法是通用的机器学习算法,而不是特定于围棋一种应用,所以真正有意义的是人工智能已经在影响技术领域。 AlphaGo经过学习打败了围棋世界冠军, 那么AI技术用在汽车领域呢?人工智能驾驶会不会成为世界上最优秀的司机? 当前不是, 但是这个进程已经开始。

下载OFweek,高科技全行业资讯一手掌握

评论

(共0条评论

评论长度不能少于6个字

暂无评论

今日看点

还不是OFweek会员,马上注册
立即打开