围棋人机大战,人工智能让人类“颤抖”

来源:    发布日期:2016-03-15 09:58:08   阅读量:0

文/记者 吕浩然

  技术的发展改变着人们的生活方式,且改变的速度几乎无人可以预测。没有什么便利是没有代价的,在一项技术推广前,进行审慎的评估并做好风险控制,才是更应该做的事情。
 

  备受关注的“人机大战”:谷歌AlphaGo VS 韩国九段李世石的比赛引发世人关注,很多看客都将此次对弈看做是人工智能与人类智力的一次重要比拼。

  这次比赛于3月9日开始,共分五日对战五局。每位棋手各有2小时布局时间以及3次60秒的读秒(棋手将限时用完后的倒计时时间),而每场比赛预计需要4-5个小时。比赛完全平等,获胜者会得到100万美元的奖金。当然钱不是事儿,这场比赛之所以备受世人关注,是因为它关乎人类的脸面。

  与以往围棋AI不同,AlphaGo的战绩可谓十分辉煌:今年年初,AlphaGo以5:0的比分横扫法国职业二段棋手、欧洲冠军樊麾,并登上了1月27日《自然》期刊的封面,这也是人类历史上围棋AI首次在公平比赛中战胜职业选手。不过被人忽略的是,此前与法国“crazystone”、日本“zen”等当今最优秀围棋程序进行的500盘博弈,“ AlphaGo”只输了一盘。

  可能性比可观测到的宇宙中原子的总数还多

  AlphaGo(阿尔法围棋)是一款围棋人工智能程序,由位于英国伦敦的谷歌(Google)旗下Deep Mind公司开发。它的主要工作原理是“深度学习”,这个程序利用“价值网络”去计算局面,并用“策略网络”去选择下子。

  那么,AlphaGo和以往的下棋机器人有何不同呢?其实,对于解棋类项目,最初人们想运用的方法是穷举法。其基本思想是根据题目的部分条件确定答案的大致范围,并在此范围内对所有可能的情况逐一验证,直到全部情况验证完毕。

  就好像我们做一道题,将可能的答案一一代入公式,总有一个或者多个解符合题目要求。虽然这样的方法略显笨拙:对于简单的计算,可能验证的步骤并不会过于繁复,但却会随着条件的拓宽而直接增加需要验证的变量数目。

  不过这点在计算机强大的计算能力上似乎并不是个事儿!上世纪末(1997 年 5 月 11 日)IBM公司开发的“深蓝”在正常时限的比赛中首次击败了等级分排名世界第一的棋手加里·卡斯帕罗夫,“深蓝”的运算能力当时在全球超级计算机中居第259位,每秒可运算2亿步。深蓝主要依靠强大的计算能力穷举所有路数来选择最佳策略:“深蓝”靠硬算可以预判12步,卡斯帕罗夫可以预判10步,两者高下立现。

  最后卡斯帕罗夫以2胜1负3平败北。比赛中,第二局的完败让卡斯帕罗夫深受打击,他的斗志和体力在随后3局被拖垮,在决胜局中仅19步就宣布放弃。IBM拒绝了卡斯帕罗夫的再战请求,拆卸了“深蓝”。卡斯帕罗夫虽然后来多次挑战电脑战平,却无法找“深蓝复仇”,留下永久的遗憾。

  随后的2006年,中国超级计算机浪潮天梭在比赛中,同时迎战5位中国象棋大师。在2局制的博弈中,浪潮天梭以平均每步棋27秒的速度,每步66万亿次的棋位分析与检索能力,最终以11:9的总比分险胜。

  然而,人类在国际象棋、中国象棋上的失利却并没有带来过度惶恐,毕竟还有围棋这一始终不能被电脑攻克的项目仍被人类牢牢占据着。为什么围棋的“攻克”会较国际象棋难?

  曾有过这么一句话:围棋的可能性数量要比可观测到的宇宙中原子的总数还要多得多。对此,北京邮电大学教授、中国人工智能学会理事刘知青给予了肯定的答复:“围棋棋盘上有横竖各19条线,共361个交点,那么涉及到的可能出现的局面数量最大可达3361(1.7408965065903 ×10172)。这个数量级是一个什么概念?有研究推测,在可观测的宇宙中所有原子的数量“仅有”1080,后面差了90个“0”,与围棋差得不是一星半点,而是天壤之别!而用相同的方法,国际象棋就显得简单不少,大约是1047。

  当然,在实际对战中涉及到的可能性并不能达到10172这么多,但是,在规定时间内想要让计算机利用穷举法战胜甚至是必胜人类在现有的硬件条件下并不能做到。于是研究人员开始从人类的思维方式入手,说白了就是模仿人类高端棋手的下棋方式。而这也正是AlphaGo被称为人工智能的独特之处,它具备了类似于人类的深度学习能力。


Alpha-Go对战韩国九段李世石的比赛引发世人关注,很多看客都将此次对弈看做是人工智能与人类智力的一次重要比拼。这次比赛于3月9日开始,共分五日对战五局。

  AlphaGo:向人类一样地不断进化

  首先值得肯定的是,人工智能在下棋时的“常识”和“计算”上要比人类高出一大截,这是一种天然的优势,背靠计算机强大的运算能力。那么在本身有优势的前提下为什么还难以战胜人类呢?

  这是因为,职业棋手在下棋时并未对全盘所有的点进行逐一推举,而是在几个选项上进行推算,首先这就在可能性上减少了一部分。曾有职业选手表示,在对弈时,取胜的关键就是看双方谁推演得更深入,尤其是在几个点的利弊上进行判断。

  AlphaGo的研究人员从职业棋手学习的特点出发,对AlphaGo进行了不断的改良,“三管齐下”,最终将AlphaGo变成了一个可以不断进化的“棋手”。“AlphaGo”不仅记忆超强,还能够自主学习。它其实是一台具有 1200 核的搭载了基于价值判断与策略判断双重神经网络系统的具有自主学习能力的超级计算机。其中负责策略判断的策略网络又可以分为研究KGS(一款在线围棋对战平台,有真人包括职业棋手与机器人在其上对弈)上对弈数据的学习系统,以及一个自己与自己对弈的增强学习系统,而价值网络则完全通过增强学习系统来实现。


深度神经网络示意图

  第一管:蒙特卡洛算法

  首先不得不提到令围棋AI大幅进步的蒙特卡洛算法。刘知青告诉记者,蒙特卡洛算法是近十年来围棋AI都在用的一个模拟算法,非常适合计算机进行计算。

  电脑在数据储量上相比人类具有明显的优势,通过大量的棋局储备,电脑可以通过大数据的分析将出现的情况与已知情况进行对比,并通过胜负概率进行判断,找出一个“方向”。

  通俗一点说,AlphaGo搜集了大量的对弈棋谱,在面临各种情况时能在棋谱中找到相似的“拆招”方式,并通过最终的胜负概率进行选择,给出可能的几个选择。这点与人类学习围棋非常相似——人们学习围棋除了了解基础规则以外,也是通过很多棋谱的复盘去一点一点掌握围棋的“棋感”。

  第二管:深度神经网络

  不仅如此,此次AphaGo在蒙特卡洛的基础上又增加了两种深度神经网络:“策略网络”(policy network)和“价值网络”(value network)的应用,主要目的就是权衡利弊。

  其中,“策略网络”会对全局进行把控,先剔除一些多余选项——面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。而“价值网络”会对棋路的价值进行评估——AI会一边推算一边判断局面,在局面处于明显劣势的时候,再集中进行推算的价值已经不高,所以果断放弃,避免了“一条道走到死”的局面;利用蒙特卡洛拟合,将这些信息放入一个概率函数,AI就不用给每一步以同样的重视程度,而可以重点分析那些“含金量”较高的地方并进行重点公关。

  刘知青说,AlphaGo利用蒙特卡洛算法和深度神经网络对全局进行分析,权衡每一步的得失、利弊,就像人类棋手会判断当前局面以及推断未来的局面一样。“相较于其它围棋AI,此次AlphaGo最有价值的行动就是将价值网络引入到了AI中,这点在局势的分析上是非常有效果的,也是谷歌团队最大的创新点”。在电脑推算能力大大强于人脑的前提下进行更深层次的推演,从中找出获胜概率最高的一步。

  第三管:自我学习

  如果看到这你就认为Alpha-Go已经很像个“人”了,那我只能说你太单纯了!人类学习围棋的过程中,复盘是一个非常重要的过程。不论是自己的对弈还是对已有的高端比赛的复盘,人在这个过程中去培养棋感,积累经验。而Alpha-Go同样也有这个过程,研究人员将此称为“监督学习”(upervised learning)。

  关键的是,Alpha-Go通过自己与自己对弈,就可以不断地使棋力提高。也就是说,它在不断地自我进化。 所以有研究人员预测,或许现在Alpha-Go并不能称霸围棋(已经是围棋AI界的大拿),但是通过蒙特卡洛算法、深度神经网络和自我成长机能,彻底战胜人类是迟早的事。毕竟Alpha-Go利用了超过170个GPU,粗略估算超过800万核并行计算,这样巨大的体量本身就不是一个摆设,加上它还能不断地进化,称其为目前人工智能领域绝对的巅峰之作也不为过。

  能够像人一样思考的机器

  AlphaGo的战绩与很多人的判断甚至是期盼大相径庭,但是真等到事情结果摆在眼前,却在一方面感叹阵地易主的同时,不免对人工智能发展的速度唏嘘不已,甚至是在探讨人工智能未来发展的时候出现了很多情绪上的变化,或激动,或兴奋,或悲观,甚至是恐慌。

  “人类输了”的标题立刻横贯网络,但是一场比赛就意味着人类输了?由人类创造出的人工智能最终会取代人类自身?不见得。

  人工智能(Artificial Intelligence,简称AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术学科。

  六十年前的1956年夏,以麦卡赛、明斯基、罗切斯特和申农等为首的一批青年科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,它标志着“人工智能”这门新兴学科的正式诞生。

  从1956年正式提出“人工智能”算起,六十年来,人工智能已取得了长足的发展,成为一门广泛的交叉和前沿科学。总的说来,人工智能的目的就是让计算机这台机器能够像人一样思考,拥有自己的智商和情商。

  但问题是:如果想让一台机器拥有思考的能力,那就必须弄清思考的本质,更进一步讲就是什么是智慧。科技发展到今天,形形色色的机器(人)充斥着世界的每一个角落,它们模仿我们身体器官的功能,但是能不能模仿人类大脑的功能呢?答案是否定的,原因无它:截至记者发稿时止,我们也仅仅知道这个核桃状的东西是由数十亿个神经细胞组成的器官,剩下诸如“想法是如何产生的”“为什么女人翻脸比翻书快”“又哭又笑是大脑左右闹矛盾么”等问题,依然是个未知解。说白了,模拟模拟,被模拟的大脑还令人类两眼一抹黑,人工智能的成功还仅停留在理论这一层级。不过,这并不影响人工智能的发展,虽然“它”曾受到冷落。

  在人工智能发展早期,学术界和工业界对其前景持有一种过分乐观的态度——这种乐观与其说是对技术的期望过高,倒不如说是当时人们对机器能力的估计实在是过低,以致于当计算机表现出一点点聪明,人们就为之惊叹,而这种惊叹又很容易演化成一种过分的自信。

  这样的自信自然无法长久。度过了最初的兴奋后,无论是工业界还是学术界都遭遇了巨大的困难。1973年,英国政府委托数学家詹姆斯·莱特希尔爵士(Sir James Lighthil),对人工智能进行全面评估。结果显示,人工智能无法应对现实世界中存在的“组合爆炸”问题,因此只能实现一些简单的应用。以这份报告为基础,英国政府停止了对AI领域的研究支持。在这之后,人工智能研究陷入了长久的沉寂。

  是否该为AI设立红线

  在近半个世纪之后,人工智能领域才又再一次回到人们视线,而这一次,我们拥有的资源与之前可谓不可同日而语——计算资源已经部署在云端,像水和电一样唾手可得;互联网所容纳的信息超过了前人所有的知识储备,现实和虚拟世界也不再泾渭分明。以蒙特卡洛搜索树、深度学习、深度神经网络为代表的先进模拟算法,也使得机器不仅在处理能力上较之前不可同日而语,还在“思考”能力上有了长足的进步。

  1957年,人工智能的先驱、通用问题求解机的发明者之一赫伯特·西蒙曾说过:“我不是故意让你震惊,但概括来说,现在世界上就已经有了可以思考,可以学习和创造的机器,而且它们的能力还将与日俱增,一直到人类大脑所能够应用到的所有领域。”

  六十年,人工智能从蛰伏到爆发度过了一个漫长却又饱受质疑的过程。技术的发展改变着人们的生活方式,且改变的速度几乎无人可以预测。

  而与其考虑人工智会将人类奴役并毁灭,我们更愿意列举每年交通事故的死亡人数,来论证没有什么便利是没有代价的。在一项技术推广前,进行审慎的评估并做好风险控制,才是更应该做的事情。

  正如李彦宏、马化腾等各互联网大佬在两会中所报提案那样,设立监管部门、建立相关的法律法规,甚至是在国际范围内进行公开的探讨、设定国际公约,在人工智能发展的高峰初期就设立一个人为的“天花板”,什么是可以开发的,哪些威胁又是必须规避的,这都有待各方的一致努力才能保证未来人工智能的发展可以受人类的控制,在一个合理的范围内不越过“红线”。■

  (部分资料授权自果壳网、微信公众号“喆理围棋”、新浪网)



Tips

  历史上三次人机大战

  1997年IBM的深蓝对战国际象棋大师

  由IBM开发的深蓝(Deep Blue),是专门用以分析国际象棋的超级电脑。1996年2月10日,深蓝首次挑战国际象棋世界冠军卡斯帕罗夫(Kasparov),但以2-4落败。比赛在2月17日结束。其后研究小组把深蓝加以改良,1997年5月再度挑战卡斯巴罗夫,比赛在5月11日结束,最终深蓝电脑以3.5–2.5击败卡斯帕罗夫,成为首个在标准比赛时限内击败国际象棋世界冠军的电脑系统。IBM在比赛后宣布深蓝退役。

  2011年IBM的沃森挑战综艺节目《危险边缘》

  沃森是一台拥有专为复杂分析而优化设计的系统,由90台IBM Power 750服务器组成的集群服务器,共计包括2880颗POWER7处理器核心以及16TB内存。沃森每秒可以处理500GB的数据,相当于1秒阅读100万本书。

  2011年,沃森参加综艺节目《危险边缘》来测试它的能力,这是该节目有史以来第一次人与机器对决。2月14日至16日广播的3集节目中,沃森在前两轮中与对手打平,而在最后一集里,沃森打败了最高奖金得主布拉德·鲁特尔和连胜纪录保持者肯·詹宁斯,获得了100万美元的奖金。

  2015年GOOGLE的AlphaGo对战围棋大师

  根据1月28日《自然》杂志的封面文章介绍,谷歌DeepMind公司设计的AlphaGo在没有任何让子的情况下以5:0 完胜欧洲冠军、职业围棋二段樊麾。而AlphaGo也在3月份迎战了世界围棋冠军李世石。

  与之前深蓝和沃森不同,AlphaGo不仅仅是外界输入给他更多的信息,而是通过学习和分析结果来判断最优策略。这个过程已经开始类似小孩子学习知识的一种方式了。即机器学习。