https://mp.weixin.qq.com/s/xr-2cNoSYpCftLI3dV6zEw
如何使用深度强化学习帮助自动驾驶汽车通过交叉路口?
https://mp.weixin.qq.com/s/R_pfTXDMaLHmiCaSV2t_YA
英特尔Nervana发布强化学习库Coach:支持多种价值与策略优化算法
https://mp.weixin.qq.com/s/AyW7oOC7yxVtmswaMT1DGQ
腾讯AI Lab获得计算机视觉权威赛事MSCOCO Captions冠军
https://mp.weixin.qq.com/s/4aENmxUMEEPVPnexLKrg7Q
新型强化学习算法ACKTR
https://mp.weixin.qq.com/s/5PzTiPoXPC1gH3xszzT2dQ
邓力等人提出BBQ网络:将深度强化学习用于对话系统
https://mp.weixin.qq.com/s/pM8oykHmtu5O5jYJBZjO_w
伯克利研究人员使用内在激励,教AI学会好奇
https://mp.weixin.qq.com/s/3WI3QgfHXcrCPbvmHWOEkg
强化学习在生成对抗网络文本生成中的作用
https://mp.weixin.qq.com/s/IvR0O6dpz2GJCG7UQb5kUQ
清华大学冯珺:基于强化学习的关系抽取和文本分类
https://zhuanlan.zhihu.com/p/31579144
让我们从零开始做一个机械手臂(强化学习)
https://mp.weixin.qq.com/s/FiR_GRYqJYpJRO-2p44-Cg
伯克利强化学习新研究:机器人只用几分钟随机数据就能学会轨迹跟踪
https://mp.weixin.qq.com/s/_dHjZQ_7_7H34PHhV_lC3w
全新强化学习算法详解,看贝叶斯神经网络如何进行策略搜索
https://mp.weixin.qq.com/s/YCPXkFzYdC1gMfnprZsVXg
如何让机器人多技能?通过最大熵强化学习
https://mp.weixin.qq.com/s/dbtdNsT3nvLt4UKsrNsn_Q
量化深度强化学习算法的泛化能力
https://mp.weixin.qq.com/s/K-z_dX2-NepkEHbr45QlvQ
微软研究院开源项目TextWorld:可用于强化学习训练的文本游戏
https://mp.weixin.qq.com/s/K2DW_ntSWrlySpxgorF9dA
Python强化学习实战,Anaconda公司的高级数据科学家讲解
https://zhuanlan.zhihu.com/p/32089849
概要:NIPS 2017 Deep Learning for Robotics Keynote
https://mp.weixin.qq.com/s/6wPtb9Qdhr9FiMk15xrUsQ
强化跨模态匹配和自监督模仿学习
https://mp.weixin.qq.com/s/lU3_ONAIGDUv_AVv2Xn14w
仅需2小时学习,基于模型的强化学习方法可以在Atari上实现人类水平
https://mp.weixin.qq.com/s/w0_g5FlC6vx2MRAhADPq2g
深度强化学习在智能对话上的应用
https://mp.weixin.qq.com/s/4SZ1NN5hUUcO_dSe4Bv0NQ
利用鲁棒控制实现深度强化学习驾驶策略的迁移
https://mp.weixin.qq.com/s/rwqtw5b2Nap5UPU9DWBXqg
强化学习与文本生成
https://mp.weixin.qq.com/s/VPCtsv2Q73qVcNAa4Xufag
从虚拟到现实,北大等提出基于强化学习的端到端主动目标跟踪方法
https://mp.weixin.qq.com/s/6Sj2QIELQvI28Rpp7A39Fg
如何通过结构化智能体完成物理构造任务?
https://mp.weixin.qq.com/s/lR6BSa_pJzcinkSaSWsM2A
伯克利提出强化学习新方法,可让智能体同时学习多个解决方案
https://mp.weixin.qq.com/s/P-iSI80IVmb5s-Q15Re2HQ
All In!我学会了用强化学习打德州扑克
https://zhuanlan.zhihu.com/p/36322095
最前沿:从虚拟到现实,DRL让小狗机器人跑起来了!
https://zhuanlan.zhihu.com/p/29019246
基于策略的增强学习
https://mp.weixin.qq.com/s/OY56lJ_NFf5vVAgKfKyx2A
利用强化学习自动搜索最优化方法
https://mp.weixin.qq.com/s/nYOOwVoijl1p4V0A7yaI3w
机遇与挑战:用强化学习自动搜索优化算法
http://mp.weixin.qq.com/s/TBVVdX3erOpXNjXmhLmxOw
学“深度强化学习”,看懂DeepMind这篇文章就够了!
https://mp.weixin.qq.com/s/7BsXPQ8wC6_fHulU63ZQiQ
当强化学习遇见泛函分析
https://mp.weixin.qq.com/s/uDFsWebfLmka-zZX3Y_8kg
深度强化学习在面向任务的对话管理中的应用
https://zhuanlan.zhihu.com/p/41467058
Policy Optimization with Demonstrations
https://openreview.net/pdf?id=rJzoujRct7
深度学习之斗地主
https://mp.weixin.qq.com/s/qWuoo6cGLWLk4OKlunR-Og
滴滴KDD 2018论文详解:基于强化学习技术的智能派单模型
https://zhuanlan.zhihu.com/p/43496459
解决Sparse Reward RL任务的简单回顾
https://mp.weixin.qq.com/s/tuEhP3CDZ4PW7S66yP8AbA
如何解决稀疏奖励下的强化学习?
https://mp.weixin.qq.com/s/GUyZ0U5_JlXCI-5mO796SA
超越DQN和A3C:深度强化学习领域近期新进展概览
https://zhuanlan.zhihu.com/p/43843955
BAIR:基于人类演示&RL的夹爪训练——高效、通用、低成本
https://mp.weixin.qq.com/s/ADZlLx6gMTFU6IoBCF669g
快1万倍!伯克利提出用深度RL优化SQL查询
https://mp.weixin.qq.com/s/G99vqIYeWzgQ4kL4p77cKA
用强化学习做神经机器翻译:中山大学&MSRA填补多项空白
https://mp.weixin.qq.com/s/FROyReDu7i5amGv-J4cmtg
“世界模型”实现,一步步让机器掌握赛车和躲避火球的技能
https://mp.weixin.qq.com/s/oyxqA_LYtze1f_YDwDZziQ
从零开始自学设计新型药物,UNC提出结构进化强化学习
https://mp.weixin.qq.com/s/1b3_AiFhwXqxb7FozdRYIQ
最in强化学习+NLP技术分享会
https://mp.weixin.qq.com/s/RKQb7-mQ-ELRRq18db02Pg
DeepMind大突破!AI模拟大脑导航功能,学会像动物一样“抄近路”
https://mp.weixin.qq.com/s/qBwszD9rn4gKazXdwqexSQ
MIT提出使用“深度强化学习”帮助智能体在运动中做出“动作决策”
https://mp.weixin.qq.com/s/i-udn1M4kiJpF8U7u5Uepg
专家解读DeepMind最新论文:深度学习模型复现大脑网格细胞
https://mp.weixin.qq.com/s/AS1VFjBFnSk19QJ28tBVWA
NIPS 2017斯坦福赛题大公开:强化学习模拟人类肌肉骨骼模型
https://mp.weixin.qq.com/s/TWjFWe6-dZWDoTi5gN1BxA
深度强化学习在指代消解中的一种尝试
https://mp.weixin.qq.com/s/YnMgJDAh3XhyyNdI8RXmtw
腾讯知文等提出新型生成式摘要模型:结合主题信息和强化训练生成更优摘要
https://mp.weixin.qq.com/s/VrVdsxn94ux_46mIyS8f0w
谷歌大脑实现更宽广的智能体视野,在Atari2600上可持续超越人类玩家!
https://mp.weixin.qq.com/s/P5EysBHBaR6L3IfeSgo6fw
强化学习20分钟,剑桥博士教汽车学会自动驾驶!
https://mp.weixin.qq.com/s/ij3bf61Pu7lrX0WijhbDeA
骑驴找马:利用深度强化学习模型定位新物体
https://mp.weixin.qq.com/s/iYxijHlE3sLJgKnwwd8Tgg
使用深度强化学习和贝叶斯优化获得巨额利润
https://mp.weixin.qq.com/s/_QkxCrQlyRM10eZK8aNCKA
强化学习在携程酒店推荐排序中的应用探索
https://mp.weixin.qq.com/s/fWySZWsYEKBRwYaFL3J2Xg
强化学习大规模应用还远吗?Youtube推荐已强势上线
https://mp.weixin.qq.com/s/nHBczPlffhZrJy4G4oJ1Ag
让神经网络懂得黄金法则
https://mp.weixin.qq.com/s/0dUlVC9I8qmv3f2BB0IFew
强化学习介绍及自动驾驶汽车应用
https://mp.weixin.qq.com/s/_Di73PkEWJV1-OLLHfz7yQ
组合在线学习:实时反馈玩转组合优化
https://mp.weixin.qq.com/s/NkrPfitZ6o75XaGxGC0eZw
谷歌发布离线强化学习新范式,克服RL智能体只能在线训练难题,训练集相当于200多个ImageNet
https://mp.weixin.qq.com/s/nEw0Vem-aL9D6w-1lEAsBQ
字节跳动基于深度强化学习的广告推荐模型DEAR
https://mp.weixin.qq.com/s/xG7IboDg6tn13rRIgKSICg
强化学习中从仿真器到现实环境的迁移
https://mp.weixin.qq.com/s/CcJrsbYO70GwOcedUXnHdg
除了网红,强化学习也能带货?
https://mp.weixin.qq.com/s/u44neSzF2Iqyv-i1Fc4lsQ
脱胎换骨的生成模式:强化学习重排
https://mp.weixin.qq.com/s/oZDDP59o-1qwfz8prK3nJQ
伯克利最新研究:如何用目标图像进行机器视觉强化学习?
https://mp.weixin.qq.com/s/00zHwpw2xWP2fR9sDHE2Xw
BAIR讲述如何利用深度强化学习控制灵活手
https://mp.weixin.qq.com/s/V7RESEm4xzhW8tXEjKjn1Q
层次强化学习、记忆与预测模型
https://mp.weixin.qq.com/s/aNskPERmekw9yQVb7A3GPQ
Google大脑最新研究成果:使用强化学习实现动态系统的韧性计算
https://mp.weixin.qq.com/s/pJkCOCl6o70le1WsE9p3pg
在全景视频中预测头部运动:一种深度强化学习方法
https://mp.weixin.qq.com/s/fodjmmh_jJMh4hD3m2OrLg
凭借幻想的目标进行视觉强化学习
https://mp.weixin.qq.com/s/6HVSh7_9Akmf6OE8PGNy6Q
怎样让AI完成人类搞不定的任务?OpenAI提出迭代扩增法给AI设目标
https://mp.weixin.qq.com/s/JpZimrHALjuc-H9WF8sPZg
智能体只想看电视?谷歌新型好奇心方法让智能体离开电视继续探索
https://mp.weixin.qq.com/s/dic_ssebe32L30pAUxlP6w
谷歌AI-强化学习中的好奇和拖延
https://mp.weixin.qq.com/s/tieGV_tDWkVVW2YFes4AqA
学习何时做分类决策,深度好奇提出强化学习模型Jumper
https://mp.weixin.qq.com/s/THgo4YzhUN2PUkyI5sSnpw
开源啦:连DeepMind也捉急的游戏,OpenAI给你攻破第一关的高分算法
https://mp.weixin.qq.com/s/loH6M0_U1DVrod0Drkl4eg
深度强化学习教机器人自己穿衣服!
https://mp.weixin.qq.com/s/VqPPQnH22Y-XeojNEZn3YQ
CoRL 2018最佳系统论文:如此鸡贼的机器手,确定不是人在控制?
https://mp.weixin.qq.com/s/eEQhwV1cA4nEgEBcOKDenA
将逆向课程生成用于强化学习:伯克利新研究让智能体掌握全新任务
https://mp.weixin.qq.com/s/cO1VlYGwdRBAbPs7IgvcAA
超越传统强化学习的价值分布方法
https://mp.weixin.qq.com/s/s7c0oleKCmdI2Kh9pDPsXw
强化学习需要批归一化(Batch Norm)吗?
https://mp.weixin.qq.com/s/2nn56lpWe7YYU0CrRYrvbA
强化学习在智能交通灯中的应用
https://mp.weixin.qq.com/s/nk-X88bF6LiAywnqRz3REQ
Youtube推荐RL首弹,基于Top-K的Off-Policy矫正解决推荐中的信息茧房困境
https://mp.weixin.qq.com/s/EPLvdQFiT1MiGgG7u4Qoqg
基于强化学习的无地图机器人导航,Reinforcement Learning Based MRN
https://mp.weixin.qq.com/s/X8STHGKlJYN2Qizz4t8Llg
Accelerating DRL via Human knowledge
https://zhuanlan.zhihu.com/p/145983063
大规模深度强化学习的发展
https://zhuanlan.zhihu.com/p/53326459
深度强化学习中的好奇心
https://zhuanlan.zhihu.com/p/79712897
动态环境下基于DRL的无人车自适应路径规划方法
https://mp.weixin.qq.com/s/LdkPnm8vo8oeYzIC0Imlvw
俞扬:强化学习真实环境不好用?那就模拟器来凑!
https://mp.weixin.qq.com/s/GcjoZfasWNZWlTC_xP1_wg
通用强化学习用算法发现算法:DeepMind 数据驱动“价值函数”自我更新,14款Atari游戏完虐人类!
https://mp.weixin.qq.com/s/IFIXvZ_9oEzHJI34_dFI8g
训练DQN模型,loss出现nan,要怎么解决?
https://mp.weixin.qq.com/s/RE43jNFKbOj0DcLpGnAY7g
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
https://mp.weixin.qq.com/s/Sxrp3EZ8LCA3d06Zm5meKQ
《深度强化学习中的迁移学习》2020综述论文,22页pdf
https://mp.weixin.qq.com/s/ylavFA_MXLUhIBLCqxAjLQ
阿里强化学习重排实践
https://mp.weixin.qq.com/s/0o-dNtmafC2paA6gqTRkKA
一步步详解用TD3算法通关BipedalWalkerHardcore-v2环境
您的打赏,是对我的鼓励