嘉兆新闻> 机器强化学习 2017年最尖端的科技成就

机器强化学习 2017年最尖端的科技成就

发 布:2017-12-29 16:53:49查 看:38

 第1页:机器学习的类型

【中关村在线原创】2017年麻省理工科技评论给出的十大科技进步里面,榜上有名的强化学习技术。这个技术体现在哪里呢?众所周知的成果就是围棋程序AlphaGo。强化学习的结果强大到不可思议。
不同学习方式的比较
机器学习的类型

上图可知,机器学习一般分三大方式。第一种叫监督学习。简单来说就是要告诉计算机这是猫,并且给它非常多确定是猫的图片,电脑总结出规律之后,再给它一张陌生的图片,它会判断图片里是不是猫的几率。当然也可以用来做病理图片诊断、手写体识别、甚至发现财务造假等等。
监督学习和非监督学习输入的不同,前者往往可以获得不错的结果
第二种办法是非监督学习。比如你给机器很多杂乱无章的图片,让它去归类,哪些是肖像、哪些是风光。无监督学习因为资料源就乱,所以结果不像有监督学习的那么好,能做到结果是收敛的就已经不错。
学术论文的可重复性是我们期待的原因
关键是在乌镇,Alpha Go的首席架构师David Silver明确表示,围棋用的办法叫做强化学习。

第2页:新论文:强化学习的巨大威力
新论文:强化学习的巨大威力

Deepmind没有爽约,又在顶级学术期刊《自然》杂志上发表了一篇新的论文,可人们惊讶的发现这篇论文和在网络肆虐过、在乌镇与柯洁下围棋的AlphaGo Master没什么关系,Master反而成了一个比较的对象。论文的名字叫做《不借助人类知识掌握围棋》。
新论文来了,但是却打开了一扇新的大门
Deepmind指出“AlphaGo Zero 得到这样的结果,是利用了一种新的强化学习方式,在这个过程中,AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后,通过将这个神经网络与一种强大的搜索算法相结合,它就可以自己和自己下棋了。在它自我对弈的过程中,神经网络被调整、更新,以预测下一个落子位置以及对局的最终赢家。
不同版本的棋力比较,强化训练的AlphaGo Zero达到了5000多分的估值
这个更新后的神经网络又将与搜索算法重新组合,进而创建一个新的、更强大的 AlphaGo Zero 版本,再次重复这个过程。在每一次迭代中,系统的性能都得到一点儿的提高,自我对弈的质量也在提高,这就使得神经网络的预测越来越准确,得到更加强大的 AlphaGo Zero 版本。”
40天成长曲线
如何验证这种学习方式的成果呢?答案是用既往的AlphaGo来测试。上面的图片表示了AlphaGo Zero在40天内不断超越过去的版本,达到了无人之境。只可惜谷歌将计算资源干别的用了,所以棋力停留在40天的水平,如果时间更长,会更强。

第3页:强化学习征服其它棋类

强化学习征服其它棋类

强化学习既然这么有用,为何不在其它项目上试试?Deepmind将这个想法诉诸于国际象棋、将棋和围棋,同过强化学习训练的方式来看看效果,这个项目称之为Alpha Zero,比AlphaGo少个代表围棋的Go。
时间表面AlphaZero在国际象棋、将棋和围棋上都有更好的表现,所谓通杀
上面就是学习成果,面对强悍的软件,AlphaZero的学习能力非常彪悍,超越了国际象棋软件、将棋和之前同时间训练的围棋。这说明强化训练这种方式至少在棋类项目是通用的,这笔过去前进了一大步。
2017年的十大科技突破
过去的情况是,一种神经网络训练的结果只能对应一个功能,比如识别图片的AI,就只能干识别图片这一个事情,而这次的AlphaZero则是通过强化学习,只要输入规则就可以干不同的事情,这是最大的进步。当然这距离通用的AI还太过遥远,但是这种跨项目的突破,以及在其它领域的应用,使得其被《麻省理工科技评论》评为年度十大科技突破。

第4页:强化学习的资源支撑

强化学习的资源支撑

道理看着并不复杂,围棋现在已经有了很多个人写的软件,也使用一样的实现方式,那么个人是不是也能实现技术突破呢?事实上是不可能。Deepmind是谷歌的子公司,在这个过程中谷歌巨大的计算资源一直是不可或缺的。无论是AlphaGo Zero还是AlphaZero,都是同时使用数千个TPU进行训练,数千个TPU什么概念?这里有个估算。
使用Volta架构的TitanV有更多的Tensor核心
谷歌4个TPU,可以提供180T的张量计算能力。而nVidia最新的TitanV,单卡是110T,因为Titan V是完整的Volta架构,比普通的游戏卡多了640个Tensor单元。问题来了,Titan V单卡就要两万元左右,构建一个数千块Titan V或是Tesla P100的机房,可不是简单的硬件成本那么简单了。所以如果自己用1080ti训练AlphaGo Zero,大约要1700年,而Deepmind只要40天,而训练AlphaZero的TPU更夸张,多达5000个,所以得到结果更快,这也是大公司的实力。
硬件计算资源成为AI训练的瓶颈
这种硬件要求下,如果要进行大规模的训练,要买背靠大树或是有巨额融资来构建自己的平台,要么就要用很多钱来租用超级计算机的时间,这要比自我搭建可能会便宜一些,但无论哪种,都已经不是单枪匹马才能完成的了,AI浪潮下,参与的门槛越来越高。
 
Titan V给了普通人的电脑运行高级AI成果的可能
不过机器学习有个好处,就是训练费事,但是使用简单。AlphaGo Zero训练用了几千个TPU,但是训练好的网络,运行只要4个就足够,双卡TitanV的张量能力已经足够跑起来,只是没有单机版而已,这也是机器学习的魅力所在,强化学习在20177年成为了十佳科技进步也不奇怪,我们也希望在2018年AI领域有更多的突破来改变这个世界。
 
Titan V给了普通人的电脑运行高级AI成果的可能
不过机器学习有个好处,就是训练费事,但是使用简单。AlphaGo Zero训练用了几千个TPU,但是训练好的网络,运行只要4个就足够,双卡TitanV的张量能力已经足够跑起来,只是没有单机版而已,这也是机器学习的魅力所在,强化学习在20177年成为了十佳科技进步也不奇怪,我们也希望在2018年AI领域有更多的突破来改变这个世界。

关键字:嘉兆科技、测试测量
嘉兆公司拥有40年测试测量行业经验,专业的销售、技术、服务团队,在众多领域都非常出色,包括:通用微波/射频测试、无线通信测试、数据采集记录与分析、振动与噪声分析、电磁兼容测试、汽车安全测试、精密可编程测量电源、微波/射频元器件、传感器等,并分别在深圳、北京、上海、武汉、西安、沈阳、珠海、成都设有全资分公司、生产工厂、办事处。 
http://www.tnm-corad.com.cn 
关于嘉兆
嘉兆简介
荣誉证书
加入团队
荣誉客户
联系我们
我们的品牌
客户服务
在线客服
客户留言
目录索取
设备维修
维修.校准.升级
专业培训
系统服务
设备保养
嘉兆动态
新闻中心
展会活动
基础知识库
其他服务
商城
软件无线电
友情链接
关注我们
版权信息
嘉兆科技(CORAD)所发布展示的“产品信息”,“解决方案”版权归嘉兆科技所有,嘉兆科技拥有其代理权。任何收集本站产品信息并未经嘉兆科技许可,嘉兆科技将保留追究侵权者法律责任的权利。

粤ICP备 06126740号 嘉兆网 © Corad Technology Ltd. 始创于1980年

在线客服