前世今生,带你了解AlphaGo的发展历程

2022-09-29 04:30:37 发布:网友投稿
热度:95

阿尔法围棋(AlphaGo)是一款围棋人工智能程序,由位于英国伦敦的谷歌(Google)旗下DeepMind公司的戴维 西尔弗、艾佳 黄和戴密斯 哈萨比斯与他们的团队开发,这个程序应用 价值网络 去盘算局势,用 策略网络 去选择下子。

AlphaGo的重要设计者:

大卫 席尔瓦 (David Silver),剑桥大学盘算机科学学士,硕士,加拿大阿尔伯塔大学盘算机科学博士。现为伦敦大学学院讲师及Google DeepMind研讨员。

黄士杰(Aja Huang),台湾交通大学盘算机科学学士,台湾师范大学盘算机科学硕士和博士,加拿大阿尔伯塔大学盘算机科学博士后。现为Google DeepMind研讨员。

阿尔法围棋(AlphaGo)是通过两个不同神经网络 大脑 合作来改良下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎辨认图片在构造上是类似的。它们从多层启示式二维过滤器开端,去处置围棋棋盘的定位,就像图片分类器网络处置图片一样。经过过滤,13 个完整衔接的神经网络层发生对它们看到的局势断定。这些层能够做分类和逻辑推理。

这些网络通过重复训练来检讨成果,再去校订调剂参数,去让下次履行更好。这个处置器有大批的随机性元素,所以人们是不可能准确知道网络是如何 思考 的,但更多的训练后能让它进化到更好。

第一大脑:落子选择器 (Move Picker)

阿尔法围棋(AlphaGo)的第一个神经网络大脑是 监视学习的策略网络(Policy Network) ,视察棋盘布局妄图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以懂得成 落子选择器 。

第二大脑:棋局评估器 (Position Evaluator)

阿尔法围棋(AlphaGo)的第二个大脑相对于落子选择器是答复另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子地位情形下。这 局势评估器 就是 价值网络(Value Network) ,通过整体局势断定来帮助落子选择器。这个断定仅仅是大概的,但对于浏览速度进步很有赞助。通过火类潜在的未来局势的 好 与 坏 ,AlphaGo能够决议是否通过特别变种去深刻浏览。如果局势评估器说这个特别变种不行,那么AI就跳过浏览在这一条线上的任何更多落子。

2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手樊麾。2016年3月挑衅世界围棋冠军、职业九段选手李世石。依据日程支配,5盘棋将分离于3月9日、10日、12日、13日和15日举办,即使一方率先取得3胜,也会下满5盘。最后以4:1停止了这场 战斗 。

2016年3月27日,AlphaGo确认挑衅《星际争霸2》。2016年12月29日晚起,一个注册为 master 、标注为韩国九段的 网络棋手 接连 踢馆 弈城网和野狐网。 2016年12月29日晚起到2017年1月4日晚,master对战人类顶尖高手的战绩是60胜0负。最后一盘前,巨匠泄漏, 他 就是阿尔法围棋(AlphaGo)。

2017年5月23日-27日柯洁与围棋人工智能AlphaGo在 中国乌镇 围棋峰会 展开对弈。三局竞赛,分离于5月23、25、27日进行。

在未来,Alpha Go将和医疗、机器人等进行联合,更好的服务人类。

下一篇:在编写HTML时,怎样让DIV文字居中?
上一篇:人工智能如何实现人脸识别,你不知道的奥秘