百度正式发布PaddlePaddle深度强化学习框架PARL

  • 时间:
  • 浏览:0

强化学习作为AI技术发展的重要分支,为各家AI公司厚度重视。去年,百度首次参与NeurIPS2018 的强化学习赛事,就击败了多达 400 支来自全球研究机构以及各大公司研究部门的参赛队伍,大比分以绝对优势拿下了冠军,并受邀在加拿大蒙特利尔举办的NeurIPS 2018 Competition Workshop上分享。近日,百度PaddlePaddle正式发布在赛事夺冠中起到关键作用的厚度强化学习框架PARL,并肩开源了基于该框架的NeurIPS2018 强化学习赛事的完全训练代码。(冠军避免方案见https://github.com/PaddlePaddle/PARL) 

PARL的名字来源于PAddlepaddle Reinfocement Learning,是一款基于百度PaddlePaddle打造的厚度强化学习框架。PARL凝聚了百度多年来在强化学习领域的技术深耕和产品应用经验。与现有强化学习工具和平台相比,PARL具有更高的可扩展性、可复现性和可复用性,强大的大规模并行化和稀疏结构的支持能力,以及工业级应用案例的验证。

自 2012 年以来,百度就将在multi-arm bandits大问题上的研究成果成功落地到推荐系统中,广泛应用于搜索、对话、推荐等产品,通过点击反馈结合在线训练的土方式 ,动态调整探索(exploration)和收益(exploitation)的平衡点,降低探索风险的并肩最大化推荐收益。近年来,百度在工业应用以及学术研究上进一步引入强化学习,落地在不仅限于凤巢,新闻Feed推荐等应用上,而且 应用在前沿的学术研究领域同类机器人控制,通用人工智能AGI等。 2018 年,在机器人控制会议CoRL上,百度发表了干预强化学习机制的工作;进而在NeurIPS2018 的强化学习赛事上击败了 400 多个全球研究机构的参赛队伍,首次参赛就拿下了NeurIPS2018 强化学习赛事冠军。参赛队伍中不乏RNN之父创立的公司、卫冕冠军NNAISENSE、阿里、Yandex、Intel等强劲对手。

设计厚度强化学习框架是相当具备挑战性的工作。随便说说各大公司先后推出了某些强化学习框架,比如Intel的Coach、OpenAI的baseline、Google的Dopamine等,但截止到目前,开源社区中仍那末一一三个小 主导的RL框架。这其中主要的有一一三个小 原因分析分析是强化学习近年来发展迅猛,新的研究方向不断涌现。从 15 年Deepmind 发表DQN 算法以来,涌现了几滴 的DQN算法变种,包括Double DQN、Dueling DQN、Rainbow等,并肩在连续控制(continuous control RL),分层控制(hierarchical RL),多机器人控制(multi-agent RL)上涌现出相当多的新技术,甚至和元学习(meta-learning)以及环境建模(model-based)等结合起来。当前社区中占据 的开源框架随便说说需要支持其中的一每种算法,而且 过后技术迭代比较慢,过后设计的框架难以跟上最新的研究热点。第三个小原因分析分析是厚度强化学习算法和应用,具有土方式 各异、超参难调、随机性大等特点,即便是针对同有一一三个小 大问题,使用同有一种算法,不同的实现土方式 会带来极大的差异,学术界也一再强调强化学习可复现性大问题。综合哪些地方地方因素,要实现有一一三个小 统一的模型和计算平台,是相当困难的事情。

PARL在设计之初就考虑了上述提到的扩展性和可复现性的大问题。从上图需要看出,PARL通过抽象出Model、Algorithm、Agent等基础类帮助用户快速搭建需要和环境交互的机器人。Model类负责强化学习算法中的网络前向计算(forward)每种,通常嵌套在algorithm中。Algorithm 类则定义了网络的更新土方式 (backward)每种,通常属于有一一三个小 agent。Agent类负责和环境进行交互,而且 分发数据训练里面的algorithm。通过从前 的设计方案,PARL保证了算法扩展性:针对同有一一三个小 场景,用户想调研不同的网络结构对算法效果影响的过后,比如调研RNN建模过后CNN建模,只需要重写model每种即可;针对不同场景想用同有一一三个小 算法调研的过后,也只需重写model即可。可复现性主要体现在框架提供的algorithm集合上,在下一段和复用性并肩结合理解。

PARL 的你你你这人 设计结构的从前 好处是高复用性。仓库内的提供了几滴 经典算法的例子(algorithms目录内), 包括主流的DQN 、DDQN、Dueling DQN、DDPG、PPO等,哪些地方地方算法过后和网络结构进行了解耦(网络结构定义在Model类中),而且 不针对特定任务,只是 有一一三个小 相当通用的算法抽象。用户通过PARL搭建强化学习算法来避免当时人目前遇到的大问题时,需要直接import 哪些地方地方经典算法,而且 定义当时人的网络前向每种即可短时间内构建出经典的RL算法。你你你这人 高复用性不仅极大地降低了用户的开发成本,而且 过后PARL提供的算法结构包含完全的超参数列表,确保仓库内模型具备复现论文级别指标的能力。

下图是PARL官方提供的有一一三个小 构建示例,展示了如保快速构建需要避免Atari游戏的DQN模型。用户只需要定有一一三个小 前向网络(Model类),而且 调用框架算法集合里面的DQN algorithm即可构建有一一三个小 经典DQN算法了。DQN算法里面的繁琐的构建target 网络,同步target 网络参数等细节,过后包含在构建的algorithm里面,用户我不要 再一阵一阵关注。

PARL基于百度结构的心智心智心智心智性开花结果 图片 应用开源,而且 更能方便地定制大规模并行算法。通过调用简单的函数接口,用户需要将算法从单机版扩展成GA3C、A3C、IMPALA等并行训练架构。PARL对于通讯机制,数据I/O等全是独特的加速避免。此外,基于PaddlePaddle对大规模工业级排序/推荐等稀疏模型的支持能力,PARL不能轻松扩展到百亿级别数据或结构的训练。

PARL的并行能力在开源社区中占据 绝对领先地位。根据百度在NeurIPS上做的技术分享,基于PARL最多需要并肩通过 8 块GPU来拉动近 40000 个CPU节点运算,完全发挥整个CPU集群的计算潜力,在赛事中成功将需要近 5 个小时迭代一轮的PPO算法加速到了都可不还里能 1 分钟,实现了相对单机运算高达几百倍的加速比。你你你这人 目前开源社区中框架难以支持的并行提速,是我们歌词 歌词 歌词 拿下本次冠军的关键因素之一。

百度本次正式发布PARL,不仅在学术界引发热议,更是在工业界引起巨大反响。百度拥有国内唯一有影响力的厚度学习基础库,并积极推进AI生态战略。随着百度PaddlePaddle在工业界的影响不断深入,有一一三个小 高性能、高规格的厚度强化学习框架,也是满足工业界日趋发展旺盛的强化学习应用需求的必要条件。而你你你这人 系列举措,对于百度最终决胜AI时代将是有力的推动。

本文由站长之家用户投稿,未经站长之家同意,严禁转载。如广大用户我们歌词 歌词 歌词 ,发现稿件占据 不实报道,欢迎读者反馈、纠正、举报大问题(反馈入口)。

免责声明:本文为用户投稿的文章,站长之家发布此文仅为传递信息,不代表站长之家赞同其观点,不对对内容真实性负责,仅供用户参考之用,不构成任何投资、使用建议。请读者自行核实真实性,以及过后占据 的风险,任何后果均由读者自行承担。

声明:本文转载自第三方媒体,如需转载,请联系版权方授权转载。协助申请