手谈v,人工智能在围棋上真的没有弱点吗?
围棋的变化数对于目前看起来强大无比的计算机资源,仍然是一个无穷一般的概念。AlphaGo可以打败人类顶尖水准棋手,但是还远远达不到“最优解”的程度。
AlphaGo对于棋界无疑是一阵巨大的革新浪潮,现在总能在棋手聚会里看到非常精彩的新招拆解,也就是戏称为“狗招”的大局观极强的下法后续的定论探讨。
说起人工智能,有个特别有意思的角色要提一提:
禅雅塔,一个机器人。好吧,是“智械” 。
按照设定,这样一块铁家伙整天浮在空中 居然每天的职责是教人类诸如内心平静啊,inner peace 啊:
“施主不要像我这个铁块一样,不以心为形役咩?”
如果仅是如此还则罢了。
每次他发动“乱”的技能干扰到对手的时候,会说一句:
“你的内心焦躁不安”
谁造成的!
另外,
真正感受宁静的时候就是不停加血的六秒钟!
有恃无恐果然宁静!
『背景』
很多朋友听说过国际象棋程序 -- 深蓝。在1997年深蓝击败了国际象棋特级大师卡斯帕罗夫。就在当时,围棋程序的水平仍然是k级,也就是不到业余初段。截止2015年,全世界6000多种完全信息博弈游戏中,只有围棋程序无法抗衡相关领域的职业选手。
等等,什么是完全信息博弈游戏!?
完全信息博弈游戏的定义 :是指每一参与者都拥有所有其他参与者的 特征 、策略 及 得益函数 等方面的准确信息的博弈。
围棋、象棋 落下子来,手中不藏牌,盘上规则没有变数,胜负在于面对 于人脑近乎于无穷的变化数量,做一个优化的策略、合理聚焦、深度速算。对手隐藏的陷阱招数,全部隐含与已经落在盘上的棋子之间。
(成名多年的围棋高手也会常常被妙算无穷的好棋深深折服,围棋的魅力正源于此)
非完全信息博弈游戏,对比完全信息大家想必已经有大致了解了。桥牌,暗棋,各种带有战争迷雾的游戏。
(这个策略,嗯,保留意见吧,墨镜挺帅的)
『围棋人工智能为什么来的这么晚』
从1997年到 2015年,近20 年的时间里,各类硬件发生了质的飞跃,我们不再有人指望囤积 BP机(寻呼机)还能赚钱,一部手机已经可以轻松运转类似无尽之剑这样精良的作品。为什么过了这么久,人机对抗仍然需要调用非常夸张的计算资源?
▶▶围棋人工智能的难度主要体现在两方面:
搜索空间巨大:合法的围棋的变化(10^170)大于宇宙中原子数(10^80)。局面判断难:多人发表论文,说明,不可能有一个很好的静态局面评估函数。局面评估函数。静态局面评估函数(可以简单类比中国象棋残局) 动态局面评估函数(类比中国象棋残局 往前推算)。(这两点暂且放在这里,之后细表↓)
▶▶▶我们把围棋人工智能的发展分为三个阶段:
第一阶段:以模式识别和人工启发式算法为主,水平低于业余初段。
第二阶段:以蒙特卡洛搜索树算法为代表,水平最高达到业余5段。
第三阶段:以机器学习算法为突破,战胜人类职业棋手。
▷♫♬♩♫ 第一代围棋人工智能 ♪♫♬
第一个完整下完一盘棋的程序,是1968年, 美国人Albert L. Zobrist,作为他的博士论文完成的。
不过,接下来的20年里,围棋AI们即使是对上刚入门的初学者,也难求一胜。
1987年,应氏围棋基金会悬赏百万美元,寻求能够战胜职业棋手的围棋AI。这个悬赏分很多级,最低一级奖金,是十万新台币,相当于四千美元,奖励给第一个能够受让十六子战胜业余高手的程序。
1987年的百万美元啊! 当时程序的水平,可想而知。
(让十六个就是这样,黑棋关键的地方先摆上十六个,然后黑白一人一步比拼谁的领地大)
一直到1990年,一位中国人,中山大学化学系教授陈志行,在退休以后,花了几个月的时间编写了名为“手谈”的程序。手谈问世以后几年内,实力快速增长。
1995年,手谈连续拿到了受让十四子和十二子战胜业余高手的奖金。
1997年,手谈再过业余高手的十子关。这三次突破共计为陈志行带来了六十万新台币的奖金。同时,在1995至1998年,手谈在两项计算机围棋世界赛中七连冠,在整个九十年代鹤立鸡群,独占鳌头。
(这张照片与手谈软件 都是与我们这一代棋迷一起长大的回忆)
◤◤手谈的秘密武器◢◢♜
前面讲到,围棋难,一难在搜索空间大,就是不知道往哪里下,二难在局面判断难,就是看不出是要赢还是要输。陈教授为了解决这两个问题,祭出了一个秘密武器——“势力函数”。
请看这个图。
“势力”是围棋术语,说白了,就是一个棋子对周围空间的影响。陈志行认为,这种影响是可以量化的。比如,这图中有一颗黑子。离黑子最近的四个点,用圈标出的,受到的影响力是4. 稍微远点,用×标出的四个点,受到影响力是3. 用方块标出的,受影响力是2。三角形标出的,受影响力是1. 更远的地方,就没有影响了。当然,棋盘上有很多个子,位置不同。我们把所有棋子的影响力叠加起来,就可以得到,棋盘上的某一个空点,到底是黑棋的势力范围,还是白棋的势力范围。
这样一来,形式判断的问题就有了一个初步的解决方案。
对于这个图上的局面,
我们看下面这个图。当然,这个图不是手谈的形势判断,因为这个软件太旧了。不过直观上是相似的。
(标字母的请忽略)
比如我们有这么一个局面。棋盘中间标有字母的几个黑棋请大家忽略,这些棋不在棋盘上。那么手谈会怎么判断呢?看下面这图
很直观的,更靠近白棋势力范围的,比如左上角,白色的方块几乎都涂满了,表示这是白棋的确定地。而右下,黑方的确定地,也是一样。而处于两者之间的,比如棋盘左边中间,黑白势力范围的交界处,也可以看出很明显的过渡。这就是一个不太坏的静态的局面评估函数。
所谓静态,就是给你一个局面,不用考虑这个局面会怎么发展,就能判断。
同样地,这个影响函数也能初步解决这棋该走哪的问题。比如说,陈志行经常举的一个例子。当年手谈的对手,其它程序们,面对一个棋型,总是懵逼。就是下面这个棋型:
(小棋盘的例子 ¶)
黑棋带圈的这两个子,构成一个棋型,叫做小飞。现在白棋走在1这个位置。对于下围棋的人来说,黑棋接下来的应法是常识。
(这种走了被别人应对了自己就尴尬的叫做 臭棋)
黑棋应该挡住。这样黑棋三个子连成一片,白1已经基本成为废子。
其它程序们不知道,但是手谈知道。对于上面那个局面,手谈的势力函数就发威了:根据一个局部影响函数的分布,手谈不难识别出,这是一个黑棋小飞,白棋威胁要切断黑棋的棋型。这就是一种所谓的模式识别。那么一旦遇到这种情况,我挡住就好了。好,到了实战的时候,手谈遇到对手,都能挡住小飞。而对手遇到手谈,就是下面这种情况。
(被白棋冲穿了局部很不好收场)
黑方中间这两个子被白方切断。黑棋被撕裂,黑棋形势瞬间恶化。难怪手谈战无不胜。
但是。我必须说的是。这个势力函数,不是万能的。围棋有太多复杂的局部棋型,手谈对于识别更多的棋型无能为力。同时,基于势力函数的形势判断,也并不是很准确。这就限制了手谈的进一步提升。
陈教授的毕生目标是让手谈提升到受让陈教授自己九子能获胜的水平。
陈教授是业余高手,比刚才提到的,应氏基金会派出的测试手谈的棋手,水平还要高一些。能够受让九子战胜陈教授,可以说基本上达到了业余初段的水平。让九子是这么摆的:
(以前让新手好多次9子,也想起很久远的以前被让九个,被折腾的摸不着头脑)
黑棋先摆九个,然后白棋落子和黑棋比拼领地大小。
可以看到黑棋优势还是很大。可是,直到陈教授在2008年去世,手谈也没能过陈教授的九子关。实际上,在1997年后,围棋程序陷入了一段发展缓慢的时期。这就有了下面这个故事,“初段围棋赌局”。
1997年,与深蓝战胜卡斯帕罗夫同一年,工程师Darren Cook, 向计算机围棋从业者,包括陈教授,和几位职业棋手,提出了一个问题:什么时候才能有围棋程序达到业余初段水平? 大家的答案五花八门。有说三年以后的。陈教授说2020年。有个职业棋手说要到23世纪。
http://www.smart-games.com/worldcompgo.html
(这里看 World Computer Go Championships)
【初段赌局】
其中最劲爆的是,一位计算机科学家,名叫John Tromp的回复,到2011年,不可能有围棋程序战胜我。John是欧洲业余一级,比业余初段只低一个级别。而且,John为自己押了一千美金。这比某位微博大V说川普赢了大选就吃翔,最后躺地打滚,要可靠多了。Darren欣然接受赌局。
那么这一千美金的赌局,最后结果如何呢?
我们要先讲完第二代人工智能。
▷▷♬♬♫♪♩ 第二代围棋人工智能
一个下棋程序,可以归结为一个问题:
也就是,在某一个局面下,轮到自己下棋,你要下在哪里。
围棋盘上,有许多选择,所以这个问题就归结为,这么多的选择,哪一个是最好的,或者说,比较好的。
极小化极大搜索算法 Minimax tree search
alpha–beta pruning
(井字棋大概 那么示意一下)
☺
最简化的情况做一个讲解 ✔
假设我们对每个局面有一个评分,评分越高代表对自己越有利。相反的,如果评分低,代表对对方有利。
当轮到自己落子时,自己面临两种选择A1,A2。自己选择A1后,对方可以选择B11,B12。自己选择A2后,对方可以选择B21,B22。
评分:
B11: 3
B12: 5
B21: 0
B22: 10
Minimax选择A1。
(乱入一张图,五彩斑斓,还有全局(global)感)
(围棋的选点很多,但是赋值却极为困难,而且随着局面变化会产生变化)
那静态和动态都是人为赋予分数来计算,实际执行的时候会有什么明显差异么?
静态评估,就是只看棋盘的当前状态。动态评估,还需看除当前状态外的其它状态。比如用蒙特卡洛模拟大量棋局进行评估。
Monte-Carlo methods
第一代围棋人工智能的局限:局面评估相比国际象棋,围棋的局面评估非常难。大家可能了解,国际象棋里面的后和车,威力很大。如果一方多了一个后或者多了一个车,一般说来局面一定对那一方有利。当然还要根据子力位置好坏进行一定调整,但是一般说来利用子力价值评估,已经能得到相当好的局面评估。但是对于围棋,并不能这样套用。因为每一颗围棋棋子都是一样的,只是在棋盘上出现在不同位置,才出现了不同棋子之间的价值差别。而这对于电脑来说,是非常难以判断的。
MCTS 蒙特卡洛搜索树
蒙特卡洛是摩纳哥公国的一座城市,位于欧洲地中海。蒙特卡洛是摩纳哥的历史中心,也是世界著名的赌城。蒙特卡洛算法蒙特卡洛方法(英语:Monte Carlo method),也称统计模拟方法,是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。
(蒙特卡洛是这样的城市)
举例来说:假设我们要计算一个不规则图形的面积,那么图形的不规则程度和分析性计算(比如,积分)的复杂程度是成正比的。蒙特卡洛方法基于这样的思想:假想你有一袋豆子,把豆子均匀地朝这个图形上撒,然后数这个图形之中有多少颗豆子,这个豆子的数目就是图形的面积。当你的豆子越小,撒的越多的时候,结果就越精确。借助计算机程序可以生成大量均匀分布坐标点,然后统计出图形内的点数,通过它们占总点数的比例和坐标点生成范围的面积就可以求出图形面积。
在赌场中有很多数学概率计算的项目。蒙特卡洛算法在处理有些问题时候相当有效。故因此得名。 蒙特卡洛搜索树算法是一个基于蒙特卡洛思想,解决围棋局面评估问题的算法。简单的说,对计算机来说,围棋局面很难评估孰优孰劣,因为没有定型的地方很难判断属于哪一方。但是,如果棋局已经下完了,那就可以数子,来判断谁赢了。那么,对于一个没下完的局面,就电脑模拟,把他下完。每模拟一次,就得到一个最终的胜利结果。假如对于一个未完成的局面,模拟10000局,其中黑方赢了5500局,白方赢了4500局。就认为此局面下黑方稍优,认为黑方胜率55%。 这种算法好处在于:
充分利用了电脑的计算能力。模拟的局数越多,得到的结果也就越精确。这种算法是天然支持并行计算的。因为不同的模拟之间没有逻辑的因果联系,可以放到不同的机器上跑,最后再综合结果。这种算法也有其缺点:
招法只是根据统计结果来决定,有时会缺少前后逻辑关联。打劫,尤其是连环劫。打劫有很强的前后关联。平均值和最大值的差异。举例来说:(要先说minmax search)现在有A1,A2两种选择:A1下面的是(3, 5),A2下面的是(0,10)。显然应该选A1。因为如果我选了A1,我的对手会选3。如果我选B,我的对手会选0。0比3要小,所以我会选A1,这样对我更有利。但是如果我用蒙特卡洛搜索树算法呢,我看了下A,有两个可能,平均值是4。看了一下B,有两种可能,平均值是5。这样看上去B更好。不同的分支,搜索的深度应该并不一样。比如,思考A1招法时候,五步棋之后,明显发现不好,后面的就不需要看了。而A2招法,十步棋之后,也很难说好与不好,还需要继续往下计算。这时候如果平等的看待每个后续招法,是不合适的。UCT 上限置信区间算法 In 2006, a new search technique, upper confidence bounds applied to trees (UCT), UCT算 法是一种特殊的蒙特卡洛搜索算法,它由树内选择策略、缺省仿真策略和仿真结果回传三部分组成。
时间可控,解决MCTS的第3个缺点,动态分配资源。好钢用在刀刃上。如果算出去几步,一看情况不妙,马上收手,去算其他节点。UCT 算法最后的作为搜索结果的节点以及次优节点一定是经过多次抽样的具有较高估值可信度的节点。--------------------------------------------------------------------------------------------------------------------------
在AlphaGo出现之前,最成功的围棋人工智能叫做Zen,中文叫做天顶围棋。
§ 第三代人工智能♬♫♫♪♬
我们先揭晓一下之前提到的,“初段围棋赌局”的结局。在第二代人工智能兴起以后,围棋AI进步迅猛。2008年,采用蒙特卡洛树搜索的MoGo受让九子战胜金明完九段。次年,MoGo受让六子战胜简立辰初段。业余初段似乎已经不是AI们的对手。不过,John也不是坐以待毙。在过去的十几年里,John已经从业余1级进步到了业余2段。赌局最后期限临近,悬念竟然不跌反增。2010年末,John Tromp 与 当时的一流程序多面围棋大战四局。结果令人意外,John 以4比0横扫多面围棋。并且,从进程来看,多面围棋毫无还手之力,可以说是惨不忍睹啊。John就此赢得一千美元的赌金。
不过Darren不服。明明程序们早就超出了业余初段的水平,只不过是你John也进步了。可是你一个人的进步,能有程序们的进步快?两年以后我们再比一场,这次不求你赌,只求你出战。
2012年中,John再次站在了pk台上。这一次他的对手是Zen。Zen当时已经在西方围棋圈内小有名气。在KGS上,每天都有业余高手排着队挑战Zen。我记得当年我也和Zen下了十几局。印象中,快棋输得多。慢棋大致相当。当时我就觉得John一点机会都没有啊。结果,John居然赢下了第一局。不过,Zen没有再给John机会,连胜三局,从而赢得了这个系列赛。“初段赌局”就此告一段落。
同年,Zen在日本举行的电王战,也就是计算机围棋的大赛中,夺冠。随后Zen与武宫正树对抗。武宫正树九段,日本前超一流棋手,以“宇宙流”,也就是重视外势的风格,受到棋友的喜爱。结果Zen连破武宫正树的五子关、四子关,也就是分别受让五子和四子战胜武宫正树。这标志着围棋AI达到了业余高手的水平。
不过,回看当年视频,可以看出武宫对局心态相当放松,明显是用下指导棋的态度。棋局内容中武宫试探较多,有时也并未祭出最强下法。所以这个让四子,需要打一个小小的折扣。
就在圈内一片乐观之时,围棋AI的发展却又陷入了停滞。2012-2015年,围棋AI进展缓慢。
2015 年末,在北京三里屯,世界围棋人工智能大会,程序石子旋风力挫Zen夺冠。在随后的人机对抗中,中国的连笑七段——连笑,处于当打之年的一流棋手。连笑让石子旋风四子和五子局皆胜,让六子局才败于石子旋风。在棋局中,石子旋风再次暴露出第二代围棋AI行棋缺乏逻辑性的问题,特别是一个连环劫,被连笑耍得团团转。
赛后,国家队总教练俞斌说,围棋AI战胜职业棋手,恐怕还需要一百年。即使是参赛程序开发者们的“乐观估计”,也认为这需要15-20年。
当时没人想到,有一个程序正在飞速成长,并已经战胜了一位职业棋手。
这个程序,现在大家都知道了,就是AlphaGo.
♕♕ AlphaGo ♛♛
那我们接下来介绍AlphaGo.
大家或多或少可能知道,阿法狗采用了一项核心技术,DCNN,也就是深度卷积神经网络。我们今天不展开讲神经网络。不过,为了方便理解,我还是给出一个神经网络的直观理解。
人工神经网络,模拟的是人脑中的神经网络。成年人的大脑里有一千亿个神经元,而这一千亿神经元构成的网络能够实现无数不可思议的功能。一个普通的人工神经网络,通常能够实现人脑功能的很小一部分。我们可以把它看成一个黑箱,比如下面这个图。
具体到AlphaGo采用的神经网络,我们可以把它看成一个只会下棋的大脑。
一个只会下棋的大脑是什么样的呢?我们可以用人类棋手下棋时的思维方式类比。请看这个图。
我们下棋的时候,面对一个局面,就好像给大脑输入了信息。接下来,大脑处理这个信息,得到两个输出。一是候选招法。这个局面,根据我十几年下棋的经验,大概有ABCD这么四种走法。二是形势判断。这A招法,我获利10目。B招法,获利3目。C脱离战场,D方向错误。注意,这里的判断既有定量的,也有定性的。这是人类棋手判断的特点。最后我确定,选择招法A,并且默默再做一次判断,确定自己有优势。
其实AlphaGo和人类的思维方式十分接近。AlphaGo的神经网络主要分为策略网络和价值网络。
策略网络其实就是模仿人类给出候选招法的过程,而价值网络就是模拟人类形式判断的过程。接下来我们具体展开。
策略网络策略网络的始祖,是监督学习策略网络,也就是Supervised Learning Policy Network。我们用一个棋手来做比喻,藤泽秀行。藤泽秀行,已故的日本名誉棋圣。在座的部分棋迷也很熟悉,秀行在日本以私生活混乱和酗酒著称。既有所谓“家中红旗不倒,外面彩旗飘飘”,也有在中国会见邓小平时,一身酒气,满嘴胡话的轶事。当然,我的重点是,藤泽秀行当年号称“前五十手天下第一”,说的是藤泽秀行布局功夫了得,选点有独到之处。这和监督学习策略网络很像。
监督学习策略网络,是从人类业余高手的棋谱中挑选出三千万个局面学习得到的。学习的结果是,这个网络在大部分时候能够像人类的业余高手一样选点,总体有业余3段的水平,就好像一个超低配版的藤泽秀行。
这个低配版的藤泽,另一个特点就是“慢”。藤泽秀行下棋也慢,他曾经有一手棋长考三小时,然后怒屠对手大龙的经历。而低配版的藤泽秀行呢,一秒钟只能下三百步。你可能会问,一秒钟三百步还算慢?别急。跟接下来这位比,这个藤泽还真算慢的。
快速走子英文Fast Rollout. 我们也拿一位棋手打比方,罗洗河。
罗洗河,中国职业九段,绰号神猪。当年罗洗河曾串烧五位韩国顶级棋手,并在决赛战胜石佛李昌镐,夺冠的同时,也终结了李昌镐的霸业。罗九段以幼年测智商160 闻名棋界,下棋时落子飞快,经常只用对手的一半时间。而我们的快速走子网络,比神猪罗洗河更快。快速走子,一秒能走五十万步,简直就要上天。不过,快,就要牺牲下棋的质量。当年我学棋的时候, 有一段时间也下得飞快。我的老师就斥责我,“你这下得是围棋吗?你这简直就是摆石子!” 快速走子,实力也和摆石子状态的我差不多,业余2段水平。
但是这个水平也不简单啊。第二代围棋AI为什么遇到瓶颈?很大程度上就是因为在蒙特卡洛搜索树的模拟中缺少一个能把色子投得又快又好的人。现在我们有罗洗河。它比策略网络快一千倍,实力却差不了太多,恰好是负责模拟的最佳人选。另一方面,罗洗河天赋异禀。这个快速走子不是从完整的棋谱里训练出来的,而是把所有局部的棋型都列举出来。所有的局部棋型,12格的小方块里面,几万个棋型,大家算算3^12是多少,全部输入到罗洗河的脑子里,然后让他自己琢磨去。这个琢磨的方法不是深度学习,而是线性回归。不过,还是管用的。我们训练快速走子,“罗洗河”的口号就是,不求最好,只求管用!
强化学习策略网络接下来是一位重量级人物,聂卫平。擂台赛英雄,不必多介绍了。这里值得一提的是,藤泽秀行当年为了帮助中国围棋发展,曾多次自费组团前往中国指导年轻棋手。老一辈的中国棋手,包括聂卫平在内,都把藤泽看作自己的老师。同样,强化学习策略网络,低配版的聂卫平,也是低配版藤泽,监督学习策略网络的学生。低配版聂卫平,从低配版藤泽的招法开始,在自我对弈的过程中不断更新迭代,稳定以后变得比老师更强大,达到业余4段。
这个低配版“聂卫平”的主要职责,就是鞭策后生,训练价值网络。想当年,2002年围甲联赛,50岁的聂卫平和一位13岁少年对战。聂卫平宝刀不老,战胜少年。复盘时,老聂在棋盘上指点江山,轻松写意。不料,少年不服,反复强调如果我这么这么下就赢了。老聂不悦,拂袖而去,留下一句“你丫牛逼”。这位日后成为世界冠军的少年,就是陈耀烨。
价值网络陈耀烨以形势判断准确而著称。我们看围棋TV的直播,那么多顶尖职业做过主播,唯有陈耀烨判断最准,好像一台形势判断机器。而我们的价值网络,也是一台形势判断机器,一个低配版的陈耀烨。价值网络从强化学习策略网络的棋局样本中汲取营养,将自己训练到能够,看到一个局面,就立即给出当前局面黑方的胜率。这个判断有多准确呢?如果我们让价值网络单独上场,那么它能够达到业余3段的水平,相当不俗。
现在我们有一个“四人团队”了。“藤泽秀行”、“罗洗河”、“聂卫平”、“陈耀烨”,虽然都是低配版的。其实还有第五位,和“罗洗河”很像,就不展开讲了。那么这些只有业余水平的神经网络,是怎么变成战无不胜的AlphaGo的呢? 关键回到之前介绍的,蒙特卡洛搜索树。
在AlphaGo这里,蒙特卡洛搜索树中的基本步骤,大致是上面这个图。第一步,选择。我们通过策略网络,就是图中的P,给出几个候选招法,这是第一层子节点。第二步,扩展。我们扩展第一层子节点,通过策略网络再下一招,给出第二层子节点。注意,这一步在刚开始模拟的时候是没有的。只有当第一层的子节点经过的次数超过40次的时候,才扩展这个子节点。第三步,评估。对于每一个子节点,我们分别用两种方式评估。一种是用价值网络,v_theta,直接做形势判断。第二种是用快速走子,p_pi,将棋局走到底,胜则记为1,败则记为0,这就是图中的r函数。最后一步,我们再把这两个结果返回第一层子节点,更新行动函数Q。重复N次以后,我们以行动函数Q,和另一个关于策略网络的函数u(P),这二者为依据,最终决定选择哪一招。
上面那段可能有些朋友听了有点晕,我们再结合一个具体的局面解释。
这个图的棋盘部分是从AlphaGo的论文里摘下来的。拿到这样一个局面,我们先请出“陈耀烨”。你先看一眼这个棋大概谁好啊?
请看图a,“陈耀烨”说,哦这个棋,如果黑走这里,胜率50,走那里,胜率51,最好是走右下这个画圈的地方,胜率54。我说哦好谢谢,你可以走了。这里只是请“陈耀烨”看看而已,并不作为主要决策依据。
接下来我们请出“藤泽秀行”,以您老人家的布局眼光,这棋走哪里好呀?请看d图。“藤泽”说,以我五十年喝酒的经验,不,下棋的经验,这棋我多半会走下边中间这个扳。还有三分之一机会走右下角的冲。其它棋,我基本上不会选。好嘞,谢谢您。劳烦您,您说的这两步,再帮我们分别往下摆一手。藤泽老师就帮我们分别摆了一手。
接下来,我们再把“陈耀烨”请回来。再劳驾你看看藤泽推荐的这几招,到底好不好啊,你给判断判断?我们也把罗洗河请来。劳驾他用一秒钟五十万步的神功,模拟一下,谁赢谁输?哎,不是让他俩随机选变化。你们一开始要听长辈,藤泽老师的,重点模拟他那两手。过段时间,你们有信心了,再多考虑你们自己的想法,明白了吗? UCT. 十几秒以后,陈耀烨给出了一个综合报告,就是图b,仍然坚持右下角的冲最好。罗洗河呢,报告说左下角的扳最好。这俩人的评价有分歧,听谁的呢?综合起来,我们取模拟次数最多的那一手。这就是图e,发现是右下角的冲模拟次数最多, 79%,下边的扳次之, 20%。我们最后选择右下角的冲。那图f是什么意思呢?图f,就是在由整个团队共同决定的模拟中,重复次数最多的那个分支,或者说变化。如果是两个阿法狗在对局,那么他们接下来就有比较大的可能按照图f进行下去。
这里有一点,“聂卫平”老师,也就是强化学习策略网络,没有出现。明明他比老师,藤泽秀行强呀,怎么不让他决策呢?AlphaGo的团队也曾经让聂卫平代替藤泽秀行做决策,结果单打独斗更强的“聂卫平”,在团队里的效果却不如“藤泽秀行”。为什么呢?这就有点玄学了,官方的解释是“聂卫平”给出的选择随机性太小。聂老布局水平高嘛,有很多棋在他眼里都不是围棋,只有他这一步才是对的。随机性小就阻碍了搜索的广度,这很不好,一不小心就漏看了一步棋。不过,说不定是聂卫平和团队里的其它成员八字不合吧,比如陈耀烨。不过,这个低配版“聂卫平”,并非没有价值。毕竟,他鞭策了后生,亲手训练了“陈耀烨”嘛。
这样的一个团队,通过蒙特卡洛搜索树结合到一起。三个臭皮匠赛过诸葛亮,战胜了职业二段樊麾,又在2016年3月,以4比1战胜传奇棋手李世乭。领头羊的突破总是会带动后来者。
历史长河中,每个时代总会出现一位思维层次高过同时期其他所有人的棋界霸主,从 黄龙士、道策、吴清源 到李昌镐。
每个时代的大师都以前所未见的形式冲击了旧的思维禁锢,打开了新的天地。
不知道多少人曾经想象过这样一件事,如果计算机帮忙穷尽计算,我们来做决策,岂不美哉,AlphaGo的出现确实整体的拔高了棋界对围棋的理解。
特种兵与拳击手无限制格斗?
特种兵是一个新名词,也是一个很火的兵种,这种火主要是被影视作品渲染的。在影视作品中,特种兵就是神兵神将,个个武功高强,单兵技能了得。其实,特种兵可真不是个个武功高强,特种兵不过是一个特种作战任务组建成立的作战部队,不会武功的人很多。部队上真正的会擒拿格斗的是侦察兵,在特种兵部队中被称为特种侦察兵。侦察兵抓舌头,也就是捕俘是一个获取情报的手段,又因为他们需要渗透到敌人后方活动,因此,需要具备较强的单兵作战技能,包括擒拿格斗,武装泅渡,地形学,野战生存等等。
而拳击手是一个职业性的竞技项目,拳击手的出拳,击打,步伐移动是有很强的技法的,拳头力道也大,出拳快速,步伐零活。但是,拳击手也是被圈定在一个规定的条条框框里,例如,后脑不能击打,裆部不能击打,简单的说,人体要害部位基本上都不能打。更重要的是,拳击手的腿法也被限制,这样会形成一个习惯性的打击方式,也就是说,习惯限制了拳击手的格斗能力。侦察兵则与拳击手形成两个极端,拳击手的杀伤性动作被习惯性的限制,而侦察兵恰恰是一招制敌,出手就是要命的招法,特别是执行任务中被敌人发现,又不能开枪暴露目标的情况下,通常的做法就是徒手或者是冷兵器制敌。
侦察兵与拳击手的格斗目的不同,拳击手上了拳台就是要争个输赢,虽然危险,但不出意外的情况下,生命安全是有保障的,还有一个拳击手套保护对手和自己,裆部也通常有护具,有的还有头套保护,还有裁判随时中止比赛,纠正违例的拳手。侦察兵与拳击手最大的不同是,拳击手无非是一场拳击赛的胜负,败了无所谓,下次再战,等多是影响点收入。而侦察兵则是一锤子买卖,要么活命,要么被敌人搞死,没有第二个选择,所以,侦察兵的格斗术都是出手就带着杀招,专门击打敌人要害,猛、准、狠!
拳击手并不是抱着杀人比赛的,也不只追求KO对手,靠点数照样赢得比赛,而且比赛有时间,不着急。侦察兵可是着急,他们都是深入敌人的地盘活动,一旦暴露目标就会丢命,所以,如果对手是一个拳击手,侦察兵不管你多厉害,也不会放过你,而且不能拖,拖不起,只能是主动出手。侦察兵的招法并不花哨,而且针对敌人的状态有针对性的动作,例如,由后捕俘、防枪、防刀等等。拳击手与侦察兵相遇,拳击手的习惯就是抱拳,抓机会给你一记重拳,打不着也不着急,慢慢来呗,如果对手实力强,可以先绕圈圈,试探试探,不冒进。而侦察兵就不会安套路出牌了,手脚并用,来个抱腿摔,然后骑上左右卡喉,右手击打头部太阳穴,同时进行,出手就是取命。拳击手习惯性的就是不能打击被击倒的对手,侦察兵是倒了也要打,没气了才算完。
拳击手的击打能力通常是强于一般的侦察兵的,拳击手习惯性的喜欢击打对手头部,而侦察兵则是更喜欢攻击下盘,将对手摔倒,接着就是拍打敌头,人趴在地上头部被打击会有一个习惯性的抬头动作,于是侦察兵就进行锁喉,小臂内侧骨卡压敌喉,上拉肩顶敌头,Ok了。所以,拳击手与侦察兵相遇,是规矩与不规矩的碰撞,拳击手习惯性的动作是一个不适合玩命的习惯,侦察兵出手都是有一个连续的套路的,只要出手就会把套路做完,而且基本是瞬间就完成,套路做完了,他也就安全了。
(以上是兔哥哨位个人观点,欢迎探讨评论,欢迎关注,图片来源网络)
你人生中最重要的10部游戏是什么?
第十。帝国时代二。
我已经在德国待了很多年了。我发现这边有很多人并不知道绯特烈巴巴罗萨是谁。这在我看来有点像中国人不知道汉武帝是谁。我和很多国人提到过这件事,他们中相当一部分的反应都是「难道他们小时候不玩帝国时代吗?」「准备好来听红胡子大帝绯特烈巴巴罗萨的故事了吗?」如果没有帝国时代二,可能我不会在小学就知道巴巴罗萨,也不会知道有个很有骑士精神的穆斯林叫沙拉丁,乃至不知道美洲有过玛雅和阿兹特克,法国曾被一名年轻的处女拯救过。一款游戏,向一个十分落后国家的小孩子,第一次讲了关于庞大的世界的迷人故事,而且只需要花五元买一张盗版盘,这些故事就会尽收眼底。这依然是一段极好的回忆,感谢全效工作室。
第九。异域镇魂曲。
这款游戏对我的影响很大。什么是游戏、什么是好游戏,可能对于每个人来说答案都不同。但这款游戏无疑深深地影响了我的游戏观。对于我而言,游戏是交互的艺术,而这款游戏可以说是第一部让我对此有了深深认识的作品。那时候我还在初中,也会读小说,也会读些苏菲的世界这样的哲学入门书。但无论如何,我不会把这些内容和我以前热爱的超级玛丽、魂斗罗、赤色要塞联系起来。而当异域镇魂曲通过一种语言交互的方式,把那些看起来和游戏无关的内容呈现给我的时候,我深深地被游戏这种表现形式所折服。从此我回头去看那些我热爱的游戏,他们呈现给我的不再仅仅是好玩、快乐、过关的成就感,而是些更深层次的东西。故而这款游戏对我来说格外特别。排在第九是因为我其实并没有真正玩过这款游戏,这么说是因为这款游戏的文本非常考究且公认是游戏的核心,而我玩的是野鸡汉化组的汉化版。毕竟对于一个初中生来说,想玩英文原版有点太难了。如果我以后有孩子,我愿意认认真真自己翻译这款游戏,让我的孩子去玩一遍,它绝对拥有跨越时代的魅力。
第八。太阁立志传五。
太阁五是太阁的绝响,它代表着这样一类游戏,即用尽可能多的系统和数据去还原丰富的现实元素,让人们通过和多样的游戏元素交互,来感受一个更广大的世界。这个世界不一定只有砍杀,也可以是倒卖物品、谋划诡计、游说诸侯、寻觅财宝、四处漂泊、等等等。系统越多越不嫌多,越复杂越不嫌复杂,每个系统好像都不容易上手,但一旦搞明白了,就让人能真切地体会到它们所反映的丰富内涵。以日本战国为故事背景的游戏不少,但我再也找不到另一款游戏,能如此全面而清晰地把日本战国的社会各界勾勒出来。类似的游戏在暗耻还是光荣的时候出了不少,比如天下闻名的大航海时代,但可能是因为开发成本太高,买帐的人不多,终于成了绝响。我看好太吾绘卷的正式版会变成下一款能够用多样的系统勾勒丰富世界的游戏。
第七。武林群侠传。
武林群侠传有着我从太阁五体会到的那种感觉,用精心设计的微系统、使人经验丰富的游戏内容。从这个游戏我学会了猜拳,没想到从初中到现在十几年,猜拳成了生活不可分割的一部分。猜拳赌酒、听音乐分辨曲子、NPC 的谜语和对联、等等,游戏把大量传统文化中的元素融入到了游戏中,配乐至今值得循环播放,再配上相当优秀的主线剧情和丰富的结局,让我不知道通关了多少遍这款游戏,应该是每一个结局都打出来了。虽然武林群侠传的人物属性系统比起 D&D 之类严谨的系统还显得很粗糙,但直到太吾绘卷的出现,它可能都是武侠量化的天花板。或许我对武林群侠传的喜爱、尤其是把它排在太阁立志传之前,是因为我太期待一款包括更多中国元素的太阁式游戏了。这款游戏不一定是武侠,也可以是历史、神怪。但那种能用一个个微系统、使人亲身参与交互、而一点点感受到一个庞大世界的设计,对我而言是最美的游戏设计之一。假如这种类型在主流的欧美和日本市场注定衰落、消失,那么在中国市场呢。不得不说,在中国口碑极佳的大航海四、太阁五、也包括前不久大卖的太吾,都让我看到了这个类型在中国这个新兴市场重生的可能性。
第六。刀剑封魔录。
像素还在,至今我都盼望着他们能推出一款刀剑的续作,哪怕是高清重置版都好。用暗黑的操作模式闪避、格挡、连击、搓大招、斩断敌人肢体,这至今是我期待的一类动作游戏。当我非常热爱的一种玩法,在历史上只有一款游戏以一种不充分成熟的姿态呈现出来时,那种感情让我至今无法忘记这款游戏。据说刀剑封魔录一共只卖出了七万套,资料片更是只卖了五万套。在我初中的时候,我用自己极有限的零花钱分别购买了原版和资料片的正版,已经是我能给予的最大支持了,但至今我依然没有等来续作。这款游戏对我的另一个意义,就是让我对游戏媒体有了更深入的认识。我觉得这是一款极优秀的游戏,但它的媒体评分一般来说只有 6 分左右。而且我发现大多数媒体似乎根本没有搞清楚这款游戏的玩法,就把一个几乎没有装备系统的游戏去和专门刷装备的暗黑对比了。还在几乎不太会打出高连击的情况下去指责游戏杀 boss 太慢、难度太高。我渐渐意识到我对游戏的认识和主流媒体是不同的,在我对游戏的认知中,再没有什么比交互的创新更值得尊重了。如果只论剧情、音乐、演出、镜头感、场景设计,那么游戏和电影有何区别呢。所以对我来说诸如 ARMS 和奥德赛这样的游戏在我心目中的位置要远比媒体视角中高大得多,因为它们真正挖掘了交互的深度和可能性,以此带给玩家不同的游戏体验,这也是我深深怀念刀剑封魔录的原因。在我心目中,通过交互上的创新带给玩家新的游戏体验,要高于关卡设计和情节演出。而新的交互逻辑显然需要额外的学习成本,所以很多玩家和媒体并不喜欢它们。
第五。暗黑破坏神二。
有的人觉得暗黑是典型的刷刷刷的游戏,这么说我觉得不大准确,我个人觉得暗黑是个刷 build 的游戏。这不同于刷素材之类的刷刷刷游戏,暗黑是不那么能计划的。RPG 游戏我认为有一个很吸引我的核心点,就是我能通过战斗机制中的某种战斗方法,让我自己感觉我在扮演游戏中的角色进行战斗。比如有的人喜欢强壮的战士,有的人喜欢拉一堆小弟的召唤师,有的人喜欢 hit & run,而有的人特别喜欢让本来应该放魔法的人冲上去肉搏,等等。不同的战斗方式反映着玩家自己的性格,我喜欢武林群侠传的一个原因也是因为武林有一个能让人选择自己战斗方式的系统,虽然很粗糙。但暗黑就不一样了,暗黑有着相当精致的数据系统和公式系统,完美继承了欧美 RPG 的传统。小时候在学校没时间玩游戏,就拿着各种数据加点、计算各种伤害、思考怎么搭配、和朋友讨论。玩家想创造一个很有战斗力的自己,但这个创造的过程却依赖于随机出现的物品词缀。这个过程特别像我们的现实生活,我们有着自己期待的生活,但机遇总是随机出现的,我们只能努力争取却没法主宰他们。有时候自己抓住了机会做了自己喜欢的事,过上了满意的生活,十分开心,有时候自己运气不佳,只能退而求其次,又会心有不甘。这一切都在那个刷 build 的过程中被淋漓尽致的展现了出来。我至今记得我为了 MF 效率用一个冰火法换上全身的 MF 装想瞬移过小怪去刷 Boss,却被一屏的电鬼瞬间秒杀,那种感觉像极了一个铤而走险的投机者最终惨败的场景。这就是暗黑破坏神的魅力吧。
第四。博德之门二。
博德之门二可以说是定义了我心目中 RPG 游戏的作品。考究的文本,要像读小说一样。详密的战斗系统,要让人们有机会选择最能代表自己风格的战斗方式。有趣、动人、同时又不乏深度的剧情,加上亲自选择的交互感,让人感受到超越文本之上的感染力。还有,比起很多作品中、政治正确的、具有典型人格的、作为某种理念之化身的人物,博德之门的人物要鲜活得多。你可能觉得一个人不是好人,但又想利用他获得帮助。你可能把两名道德情操迥异的队友带在一起,但不得不反复协调他们的意识形态矛盾。可以说直到今天,我评价一款 RPG 游戏的标准,依然是博德之门二塑造的。博德之门虽然没有暗黑那样复杂的装备系统,但第一次拿到克轮菲尔的时候我还是激动,到处找巨魔斩杀,第一次穿上维袍的时候,不自觉地随手丢了几个魔法。现代互联网上总有一批人,喜欢占据道德高位对别人指指点点,别人总是突破底线,自己总是三观正直。博德之门二给了人和杀人犯武松做朋友的机会,使我至今怀念在安姆的阴影和巴尔的王座中度过的难忘旅途。
第三。神界原罪二。
在这份榜单中的大部分游戏,都接收了时间的考验。所谓时间的考验就是,一款游戏过了几年我还会想把它拿出来玩,再过几年我又想把它拿出来玩。即使已经没有时间真的去玩了,但这种感情依然强烈。最终过去了十几年,虽然看着老旧的画面,我能感觉到它们已经垂垂老矣,仍然盼望着他们能被 Remastered Reforged。唯独神界原罪二是一款很新的游戏,但我自信我会一遍遍玩下去。虽然我也玩了上百小时的荒野之息和奥德赛,也绝不敢说它们不好玩、自己不喜欢,但我从没有那种强烈的、再过几年我还要回来再玩上百小时的冲动。我对 RPG 的理解,成型于博德之门二,但在博德之后的很长一段时间,我并不觉得有 RPG 游戏达到了相同的高度,直到我玩了神界原罪二。系统丰富的战斗系统、值得品味的剧情、富有挑战性的战术难度、不可思议的高水准画面、还有功能强大的 GM 模式。在我的心目中,神界原罪二和博德之门二有着同样的分量,但神界原罪二的 GM 模式让我对它有着更高的期待。【PC 版我买了,Xbox 版我也买了,敢不敢再出个 switch 版!】
第二。魔兽争霸三。
虽然我自己更喜欢玩星际争霸,但我们这代中国孩子,魔兽那是国民游戏。周围人都玩,我也得学两下子。结果我魔兽的水平碰巧还比星际好一些,06 - 07 年的时候也有 VS 十多级,在中学混得算小有名气。通过这款游戏我交了很多朋友,有的时候别的班的人会来拜山头,要约着比划比划。有的时候到网吧去,和人家争争场子。还有的时候路过中关村看到有擂台,二话不说上去打个擂。一款游戏本来只是一款游戏,慢慢玩出些江湖气来,成了以武会友,那自然别有一番天地。后来的 MOBA 我也有玩,但毕竟是多人游戏,大家一起玩固然开心,但少了那种比武和手谈的感觉。可惜的是 RTS 流行的年代我毕竟还只是个中学生。没有机会自己在社会上接触更多的高手,和他们一起学习、进步、乃至参加些比赛。这一直是我的一个遗憾。【W3R 在骂声一片的暴雪发布会上,和暗黑手游一起发布。在大多数年轻玩家都对不务正业的暴雪饱以鄙视的时候,我身边那些老炮们都默默地打开战网预购了这款游戏。
第一。星际争霸。
二十年对于一个人来说不算短暂了,在过去的二十年中的任意一个时刻,如果有人问我,从今天起只允许你玩一款游戏,你会选择什么。我想我都会毫不犹豫地回答,星际争霸。人上岁数以后,会忘记年轻时候的自己,尤其是很多幼稚的想法、没来由的热血、无意义的不服输、并不那么可靠的友情等等。人们可能会去寻找一个途径,把老去的自己和那个曾经的孩子连接起来。对于我而言,这条纽带就是星际争霸。在我精神高度集中,大脑快速运转,双手运指如飞的时候,那个十几岁的孩子的状态就像是从来没有离我远去似的。随着 SCR 的推出,我那些散落在德国、英国、湾区、加拿大等地的同学们,又摩拳擦掌起来。在工作之余,聊聊最近的 111 和 SK 转大和,就像我们在中学机房学算法和数据结构时一模一样。而时光荏苒、日月穿梭,转瞬之间我们都用那时候学的编程工作在了不同的岗位上。
还没有评论,来说两句吧...