网易首页 > 新闻中心 > 新闻 > 正文

百度正式发布PaddlePaddle深度强化学习框架PARL

0
分享至

强化学习作为AI技术发展的重要分支,为各家AI公司高度重视。去年,百度首次参与NeurIPS 2018的强化学习赛事,就击败了多达400支来自全球研究机构以及各大公司研究部门的参赛队伍,大比分以绝对优势拿下了冠军,并受邀在加拿大蒙特利尔举办的NeurIPS 2018 Competition Workshop上分享。近日,百度PaddlePaddle正式发布在赛事夺冠中起到关键作用的深度强化学习框架PARL,同时开源了基于该框架的NeurIPS 2018强化学习赛事的完整训练代码。(冠军解决方案见https://github.com/PaddlePaddle/PARL)

PARL的名字来源于PAddlepaddle Reinfocement Learning,是一款基于百度PaddlePaddle打造的深度强化学习框架。PARL凝聚了百度多年来在强化学习领域的技术深耕和产品应用经验。与现有强化学习工具和平台相比,PARL具有更高的可扩展性、可复现性和可复用性,强大的大规模并行化和稀疏特征的支持能力,以及工业级应用案例的验证。

自2012年以来,百度就将在multi-arm bandits问题上的研究成果成功落地到推荐系统中,广泛应用于搜索、对话、推荐等产品,通过点击反馈结合在线训练的方式,动态调整探索(exploration)和收益(exploitation)的平衡点,降低探索风险的同时最大化推荐收益。近年来,百度在工业应用以及学术研究上进一步引入强化学习,落地在不仅限于凤巢,新闻Feed推荐等应用上,并且应用在前沿的学术研究领域例如机器人控制,通用人工智能AGI等。2018年,在机器人控制会议CoRL上,百度发表了干预强化学习机制的工作;进而在NeurIPS 2018的强化学习赛事上击败了400多个全球研究机构的参赛队伍,首次参赛就拿下了NeurIPS2018强化学习赛事冠军。参赛队伍中不乏RNN之父创立的公司、卫冕冠军NNAISENSE、阿里、Yandex、Intel等强劲对手。

设计深度强化学习框架是相当具备挑战性的工作。虽然各大公司先后推出了一些强化学习框架,比如Intel的Coach、OpenAI的baseline、Google的Dopamine等,但截止到目前,开源社区中仍没有一个主导的RL框架。这其中主要的一个原因是强化学习近年来发展迅猛,新的研究方向不断涌现。从15年Deepmind 发表DQN 算法以来,涌现了大量的DQN算法变种,包括Double DQN、Dueling DQN、Rainbow等,同时在连续控制(continuous control RL),分层控制(hierarchical RL),多机器人控制(multi-agent RL)上涌现出相当多的新技术,甚至和元学习(meta-learning)以及环境建模(model-based)等结合起来。当前社区中存在的开源框架虽然可以支持其中的一部分算法,但是由于技术迭代太快,之前设计的框架难以跟上最新的研究热点。第二个原因是深度强化学习算法和应用,具有方法各异、超参难调、随机性大等特点,即便是针对同一个问题,使用同一种算法,不同的实现方式会带来极大的差异,学术界也一再强调强化学习可复现性问题。综合这些因素,要实现一个统一的模型和计算平台,是相当困难的事情。

PARL在设计之初就考虑了上述提到的扩展性和可复现性的问题。从上图可以看出,PARL通过抽象出Model、Algorithm、Agent等基础类帮助用户快速搭建可以和环境交互的机器人。Model类负责强化学习算法中的网络前向计算(forward)部分,通常嵌套在algorithm中。Algorithm 类则定义了网络的更新方式(backward)部分,通常属于一个agent。Agent类负责和环境进行交互,并且收集数据训练底下的algorithm。通过这样的设计方案,PARL保证了算法扩展性:针对同一个场景,用户想调研不同的网络结构对算法效果影响的时候,比如调研RNN建模或者CNN建模,只需要重写model部分即可;针对不同场景想用同一个算法调研的时候,也只需重写model即可。可复现性主要体现在框架提供的algorithm集合上,在下一段和复用性一起结合理解。

PARL 的这种设计结构的另一个好处是高复用性。仓库内的提供了大量经典算法的例子(algorithms目录内), 包括主流的DQN 、DDQN、Dueling DQN、DDPG、PPO等,这些算法由于和网络结构进行了解耦(网络结构定义在Model类中),因此不针对特定任务,而是一个相当通用的算法抽象。用户通过PARL搭建强化学习算法来解决自己目前遇到的问题时,可以直接import 这些经典算法,然后定义自己的网络前向部分即可短时间内构建出经典的RL算法。这种高复用性不仅极大地降低了用户的开发成本,而且由于PARL提供的算法内部包含完整的超参数列表,确保仓库内模型具备复现论文级别指标的能力。

下图是PARL官方提供的一个构建示例,展示了如何快速构建可以解决Atari游戏的DQN模型。用户只需要定一个前向网络(Model类),然后调用框架算法集合里面的DQN algorithm即可构建一个经典DQN算法了。DQN算法里面的繁琐的构建target 网络,同步target 网络参数等细节,已经包含在构建的algorithm里面,用户无需再特别关注。

PARL的并行能力在开源社区中处于绝对领先地位。根据百度在NeurIPS上做的技术分享,基于PARL最多可以同时通过8块GPU来拉动近20000个CPU节点运算,完全发挥整个CPU集群的计算潜力,在赛事中成功将需要近5个小时迭代一轮的PPO算法加速到了不到1分钟,实现了相对单机运算高达几百倍的加速比。这种目前开源社区中框架难以支持的并行提速,是他们拿下本次冠军的关键因素之一。

百度本次正式发布PARL,不仅在学术界引发热议,更是在工业界引起巨大反响。百度拥有国内唯一有影响力的深度学习基础库,并积极推进AI生态战略。随着百度PaddlePaddle在工业界的影响不断深入,一个高性能、高规格的深度强化学习框架,也是满足工业界日趋发展旺盛的强化学习应用需求的必要条件。而这一系列举措,对于百度最终决胜AI时代将是有力的推动。

相关推荐
热点推荐
华春莹发现场图:塞尔维亚群众欢迎习主席到访,欢呼“中国!塞尔维亚!”

华春莹发现场图:塞尔维亚群众欢迎习主席到访,欢呼“中国!塞尔维亚!”

环球网资讯
2024-05-08 21:20:17
美国再次打压华为, 影响大吗! 余承东时隔11天后的深夜“发声”

美国再次打压华为, 影响大吗! 余承东时隔11天后的深夜“发声”

张云谈科技
2024-05-10 01:48:05
细思极恐!陈萌顺利产子,朱小伟娶陈亚男一年都没有圆过房?

细思极恐!陈萌顺利产子,朱小伟娶陈亚男一年都没有圆过房?

王小麦幸福的一家
2024-05-09 07:27:59
养肝只要四步,坚持一个月,肝气一通百病消,收藏起来一起学习吧

养肝只要四步,坚持一个月,肝气一通百病消,收藏起来一起学习吧

今日养生之道
2024-05-08 11:16:19
贵州38岁男子杀害父母等多人后逃跑,案发现场曝光,邻居披露内幕

贵州38岁男子杀害父母等多人后逃跑,案发现场曝光,邻居披露内幕

求实者
2024-05-09 19:12:42
隐瞒婚前已生育、闪婚后仅和丈夫见面2次,一女子不退20多万彩礼被法院当场带走......

隐瞒婚前已生育、闪婚后仅和丈夫见面2次,一女子不退20多万彩礼被法院当场带走......

鲁中晨报
2024-05-09 06:55:03
周杰伦妈妈带7岁孙子外出玩耍,祖孙二人打扮时髦,享受天伦之乐

周杰伦妈妈带7岁孙子外出玩耍,祖孙二人打扮时髦,享受天伦之乐

娱小小新
2024-05-09 11:58:09
小里弗斯:NBA有30人能打NFL 他们只能找我们看不上的女人

小里弗斯:NBA有30人能打NFL 他们只能找我们看不上的女人

直播吧
2024-05-09 16:43:15
主播暮霭:岛国小电影里的沙雕剧情,你看过几个?

主播暮霭:岛国小电影里的沙雕剧情,你看过几个?

坟头长草
2024-05-08 16:27:19
捷克总统答复乌克兰何时收到18万发炮弹:首先要突破俄国重重阻挠

捷克总统答复乌克兰何时收到18万发炮弹:首先要突破俄国重重阻挠

探索星空
2024-05-09 12:10:18
停止做空交易!5月10号,今日凌晨的三大消息冲击市场!

停止做空交易!5月10号,今日凌晨的三大消息冲击市场!

风口招财猪
2024-05-10 02:32:06
百度副总裁璩静年薪1500万,未被开致歉,花16万录4视频炒“红”

百度副总裁璩静年薪1500万,未被开致歉,花16万录4视频炒“红”

公关界的007
2024-05-09 13:06:31
向安切洛蒂致敬!他太冷静了,皇马逆转比分后仍做出C罗式动作

向安切洛蒂致敬!他太冷静了,皇马逆转比分后仍做出C罗式动作

星耀国际足坛
2024-05-09 12:19:46
身材傲人的美少妇

身材傲人的美少妇

娱乐的小灶
2024-04-24 01:18:18
被无数人吐槽的“蠢设计”,得知正确使用方法之后:原来是自己蠢

被无数人吐槽的“蠢设计”,得知正确使用方法之后:原来是自己蠢

韩胖说装修
2024-05-08 22:09:55
好消息!银盆岭和福元路大桥之间新增一条过江通道

好消息!银盆岭和福元路大桥之间新增一条过江通道

冬天来旅游
2024-05-09 23:56:18
79年对越作战我军阵亡近8千人,骨灰盒分2类,白色的不发放抚恤金

79年对越作战我军阵亡近8千人,骨灰盒分2类,白色的不发放抚恤金

南书房
2024-05-05 09:40:03
深圳市“巨贪”市长拘留期“插喉”自杀,贪污20亿,被捕时卡里只有3585元

深圳市“巨贪”市长拘留期“插喉”自杀,贪污20亿,被捕时卡里只有3585元

天闻地知
2024-04-22 18:01:04
忽悠苏联后,又来忽悠中国,福建舰海试打破“航母无用论”

忽悠苏联后,又来忽悠中国,福建舰海试打破“航母无用论”

文雅笔墨
2024-05-10 08:20:52
又看上中国?沙特砸210亿求先进雷达,中方霸气回绝:永不出口

又看上中国?沙特砸210亿求先进雷达,中方霸气回绝:永不出口

战争史
2024-05-09 15:57:28
2024-05-10 09:12:49

头条要闻

媒体:今年俄罗斯红场阅兵大缩水 但西方却笑不出来

头条要闻

媒体:今年俄罗斯红场阅兵大缩水 但西方却笑不出来

体育要闻

用50万欧元,换一场绝境逆转!

娱乐要闻

高亚麟魏嘉同框画面曝光,当时已产女

财经要闻

周鸿祎正在下一盘我们看不懂的大棋?

科技要闻

新能源汽车是否比燃油车更易起火?

汽车要闻

可以动心了 海狮07EV空间够大/车机智能加BUFF

态度原创

房产
旅游
艺术
手机
数码

房产要闻

大量房源上新!但是,海口安居房真的已经不香了!

旅游要闻

福建人不宣传这个,你糊涂啊!

艺术要闻

“石破天惊——盖会宁当代水墨艺术展”将登陆盖茂森艺术馆

手机要闻

荣耀官宣:荣耀X50销量突破1000万部 成现象级爆款

数码要闻

iPod nano在苹果公司为更薄的iPad Pro所做的广告中罕见亮相

无障碍浏览 进入关怀版
×