Antkillerfarm Hacking V8.5

DRL » 深度强化学习（十二）——DRL参考资源（2）

2024-10-13 :: 6336 Words

DRL参考资源

DRL参考资源

https://mp.weixin.qq.com/s/rpPN2rgru6krRz2fr1RhsQ

模拟世界的模型：谷歌大脑与Jürgen Schmidhuber提出“人工智能梦境”

https://mp.weixin.qq.com/s/AelAD57G4GOh7qm-_rvYsg

伯克利提出DeepMimic：使用强化学习练就18般武艺

https://mp.weixin.qq.com/s/W9yhj7_frLYWJocoBR1TMQ

避免AI错把黑人识别为大猩猩：伯克利大学提出协同反向强化学习

https://mp.weixin.qq.com/s/p2hlc2PsLgrvxOF8wBZANg

李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

http://mp.weixin.qq.com/s/EPbKE-TAnAPugJDhXHEyNA

DeepMind开源Psychlab平台——搭建AI和认知心理学的桥梁

https://mp.weixin.qq.com/s/xJ_g3BvbM-WaIyLthHdhEw

DeepMind发布通用强化学习新范式，自主机器人可学会任何任务

https://mp.weixin.qq.com/s/3HYELsdYwCJeUmXDBXx8NQ

这款超火的游戏，AI只用4小时，就秀出了人类花1年才能达到的水平

https://mp.weixin.qq.com/s/aEXi3XqcrWpAtdcMkFhBxw

强化学习中的调参经验与编程技巧（on policy篇）

https://mp.weixin.qq.com/s/VpvgNhktLBl_p9gkanp4Pw

2020格斗游戏AI冠军方案：基于强化学习对手建模的滚动时域演化算法

https://mp.weixin.qq.com/s/hb7iiJDWnNAXXUJmYKbqaw

强化学习帮我通关了超级玛丽！

https://mp.weixin.qq.com/s/BoZQ8aMF2Aohj536qhfWPg

Nature重磅：OpenAI科学家提出全新增强学习算法，玩游戏可完胜人类，或推动AI向真正智能学习体进化（Go-Explore）

https://mp.weixin.qq.com/s/HBqX6pz4EzO70YpmQ8xtRw

世界上最难的“沙雕”游戏被AI攻破了

https://mp.weixin.qq.com/s/teBlXXw4JQ8k3olCDOKXyw

量化金融自动交易的深度强化学习库。哥大开源“FinRL”

https://mp.weixin.qq.com/s/8UX65PGZkRokguLTnoGVFA

强化学习组合优化综述论文

https://mp.weixin.qq.com/s/Cfim24MSmClvo2HjW7thTw

最强原创综述！当强化学习邂逅组合优化

https://mp.weixin.qq.com/s/nNTag_D_qN7WcE7DEMJFaA

横扫6个SOTA，吊打强化学习！谷歌最强行为克隆算法登CoRL顶会，机器人干活10倍速

https://mp.weixin.qq.com/s/0AM4eASolsPZ7GtPYVBqDQ

伯克利今年大热的DeepMimic开源了~

https://zhuanlan.zhihu.com/p/35567591

强化学习在关系抽取、QA场景的应用

https://mp.weixin.qq.com/s/zWo2iSiJBEBwnFF478xxfQ

DeepMind：探索人类行为中的强化学习机制

https://mp.weixin.qq.com/s/oOslkEklaZSbRb8eDDCRBw

天津大学、东京大学等研究：用深度强化学习检测模型缺陷

https://mp.weixin.qq.com/s/DNT9rMynbN4Th0AVDHeY_w

BAIR提出人机合作新范式：教你如何高效安全地在月球着陆

https://mp.weixin.qq.com/s/KqLCTSYk1C0wYpJw-hpc1g

论强化学习和概率推断的等价性：一种全新概率模型

https://mp.weixin.qq.com/s/zRXs3BCEqXUruw746rZusw

牛津大学联合7家单位发布AutoRL综述，还在手动调参吗？你已经落后了

https://mp.weixin.qq.com/s/wPWV6kxkRlYb9dMf6ADWkQ

史上首次，强化学习算法控制核聚变登上Nature：DeepMind让人造太阳向前一大步

https://mp.weixin.qq.com/s/U0K79ELLj4wsOR4sd5G4Vw

Vicarious详解新型图式网络：赋予强化学习泛化能力

https://mp.weixin.qq.com/s/C8hsGkHGtoaS9Vzm6Ub4tw

Berkeley提出“随机搜索”训练线性策略，提高RL的性能

https://mp.weixin.qq.com/s/uppNSwxNrw4_8NGBQv85xw

今日头条首次改进DQN网络，解决推荐中的在线广告投放问题

https://mp.weixin.qq.com/s/JtUuFdTK4Q5YwnVj3BFU2w

全参数化分布，提升强化学习中的收益分布拟合能力

https://mp.weixin.qq.com/s/amXiNKJPEkAnu2m5NAERVw

Top-K Off-Policy Correction

https://mp.weixin.qq.com/s/kNtzy9-6GbsRhlL-mxksew

基于强化学习的人机对话

https://mp.weixin.qq.com/s/w3SsadgKaL8-tlzYLvMm-A

讲真？一天就学会了自动驾驶——强化学习在自动驾驶的应用

https://mp.weixin.qq.com/s/nnWuIPk_6mI9IAKIUbx6KQ

深度强化学习解决交通控制问题

https://mp.weixin.qq.com/s/RNJonPJL9JY5OH2-1sZMQw

中山大学HCP实验室：基于树状结构策略的渐进强化学习

https://mp.weixin.qq.com/s/G2sFkuvSeYmhkFjjPRGI-Q

强化学习如何用于推荐？新南威尔士首篇《深度强化学习推荐系统》综述论文

https://mp.weixin.qq.com/s/fMjjGCzef-3SVIOlUf2EFA

强化学习如何用于推荐？厦大最新《强化学习推荐系统》综述论文

https://mp.weixin.qq.com/s/8cV3Z_vkC0_cyfO2nVKoSw

华人博士用强化学习回收了SpaceX火箭

https://mp.weixin.qq.com/s/_-WSoeOqXMhR7S0PtyYixQ

深度强化学习探索算法最新综述，近200篇文献揭示挑战和未来方向

https://mp.weixin.qq.com/s/xr-2cNoSYpCftLI3dV6zEw

如何使用深度强化学习帮助自动驾驶汽车通过交叉路口？

https://mp.weixin.qq.com/s/R_pfTXDMaLHmiCaSV2t_YA

英特尔Nervana发布强化学习库Coach：支持多种价值与策略优化算法

https://mp.weixin.qq.com/s/AyW7oOC7yxVtmswaMT1DGQ

腾讯AI Lab获得计算机视觉权威赛事MSCOCO Captions冠军

https://mp.weixin.qq.com/s/4aENmxUMEEPVPnexLKrg7Q

新型强化学习算法ACKTR

https://mp.weixin.qq.com/s/5PzTiPoXPC1gH3xszzT2dQ

邓力等人提出BBQ网络：将深度强化学习用于对话系统

https://mp.weixin.qq.com/s/pM8oykHmtu5O5jYJBZjO_w

伯克利研究人员使用内在激励，教AI学会好奇

https://mp.weixin.qq.com/s/3WI3QgfHXcrCPbvmHWOEkg

强化学习在生成对抗网络文本生成中的作用

https://mp.weixin.qq.com/s/IvR0O6dpz2GJCG7UQb5kUQ

清华大学冯珺：基于强化学习的关系抽取和文本分类

https://zhuanlan.zhihu.com/p/31579144

让我们从零开始做一个机械手臂(强化学习)

https://mp.weixin.qq.com/s/FiR_GRYqJYpJRO-2p44-Cg

伯克利强化学习新研究：机器人只用几分钟随机数据就能学会轨迹跟踪

https://mp.weixin.qq.com/s/_dHjZQ_7_7H34PHhV_lC3w

全新强化学习算法详解，看贝叶斯神经网络如何进行策略搜索

https://mp.weixin.qq.com/s/YCPXkFzYdC1gMfnprZsVXg

如何让机器人多技能？通过最大熵强化学习

https://mp.weixin.qq.com/s/dbtdNsT3nvLt4UKsrNsn_Q

量化深度强化学习算法的泛化能力

https://mp.weixin.qq.com/s/K-z_dX2-NepkEHbr45QlvQ

微软研究院开源项目TextWorld：可用于强化学习训练的文本游戏

https://mp.weixin.qq.com/s/K2DW_ntSWrlySpxgorF9dA

Python强化学习实战，Anaconda公司的高级数据科学家讲解

https://zhuanlan.zhihu.com/p/32089849

概要：NIPS 2017 Deep Learning for Robotics Keynote

https://mp.weixin.qq.com/s/6wPtb9Qdhr9FiMk15xrUsQ

强化跨模态匹配和自监督模仿学习

https://mp.weixin.qq.com/s/lU3_ONAIGDUv_AVv2Xn14w

仅需2小时学习，基于模型的强化学习方法可以在Atari上实现人类水平

https://mp.weixin.qq.com/s/w0_g5FlC6vx2MRAhADPq2g

深度强化学习在智能对话上的应用

https://mp.weixin.qq.com/s/4SZ1NN5hUUcO_dSe4Bv0NQ

利用鲁棒控制实现深度强化学习驾驶策略的迁移

https://mp.weixin.qq.com/s/rwqtw5b2Nap5UPU9DWBXqg

强化学习与文本生成

https://mp.weixin.qq.com/s/VPCtsv2Q73qVcNAa4Xufag

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

https://mp.weixin.qq.com/s/6Sj2QIELQvI28Rpp7A39Fg

如何通过结构化智能体完成物理构造任务？

https://mp.weixin.qq.com/s/lR6BSa_pJzcinkSaSWsM2A

伯克利提出强化学习新方法，可让智能体同时学习多个解决方案

https://mp.weixin.qq.com/s/P-iSI80IVmb5s-Q15Re2HQ

All In!我学会了用强化学习打德州扑克

https://zhuanlan.zhihu.com/p/36322095

最前沿：从虚拟到现实，DRL让小狗机器人跑起来了！

https://zhuanlan.zhihu.com/p/29019246

基于策略的增强学习

https://mp.weixin.qq.com/s/OY56lJ_NFf5vVAgKfKyx2A

利用强化学习自动搜索最优化方法

https://mp.weixin.qq.com/s/nYOOwVoijl1p4V0A7yaI3w

机遇与挑战：用强化学习自动搜索优化算法

http://mp.weixin.qq.com/s/TBVVdX3erOpXNjXmhLmxOw

学“深度强化学习”，看懂DeepMind这篇文章就够了!

https://mp.weixin.qq.com/s/7BsXPQ8wC6_fHulU63ZQiQ

当强化学习遇见泛函分析

https://mp.weixin.qq.com/s/uDFsWebfLmka-zZX3Y_8kg

深度强化学习在面向任务的对话管理中的应用

https://zhuanlan.zhihu.com/p/41467058

Policy Optimization with Demonstrations

https://openreview.net/pdf?id=rJzoujRct7

深度学习之斗地主

https://mp.weixin.qq.com/s/qWuoo6cGLWLk4OKlunR-Og

滴滴KDD 2018论文详解：基于强化学习技术的智能派单模型

https://zhuanlan.zhihu.com/p/43496459

解决Sparse Reward RL任务的简单回顾

https://mp.weixin.qq.com/s/tuEhP3CDZ4PW7S66yP8AbA

如何解决稀疏奖励下的强化学习？

https://mp.weixin.qq.com/s/GUyZ0U5_JlXCI-5mO796SA

超越DQN和A3C：深度强化学习领域近期新进展概览

https://zhuanlan.zhihu.com/p/43843955

BAIR：基于人类演示&RL的夹爪训练——高效、通用、低成本

https://mp.weixin.qq.com/s/ADZlLx6gMTFU6IoBCF669g

快1万倍！伯克利提出用深度RL优化SQL查询

https://mp.weixin.qq.com/s/G99vqIYeWzgQ4kL4p77cKA

用强化学习做神经机器翻译：中山大学&MSRA填补多项空白

https://mp.weixin.qq.com/s/FROyReDu7i5amGv-J4cmtg

“世界模型”实现，一步步让机器掌握赛车和躲避火球的技能

https://mp.weixin.qq.com/s/oyxqA_LYtze1f_YDwDZziQ

从零开始自学设计新型药物，UNC提出结构进化强化学习

https://mp.weixin.qq.com/s/1b3_AiFhwXqxb7FozdRYIQ

最in强化学习+NLP技术分享会

https://mp.weixin.qq.com/s/RKQb7-mQ-ELRRq18db02Pg

DeepMind大突破！AI模拟大脑导航功能，学会像动物一样“抄近路”

https://mp.weixin.qq.com/s/qBwszD9rn4gKazXdwqexSQ

MIT提出使用“深度强化学习”帮助智能体在运动中做出“动作决策”

https://mp.weixin.qq.com/s/i-udn1M4kiJpF8U7u5Uepg

专家解读DeepMind最新论文：深度学习模型复现大脑网格细胞

https://mp.weixin.qq.com/s/AS1VFjBFnSk19QJ28tBVWA

NIPS 2017斯坦福赛题大公开：强化学习模拟人类肌肉骨骼模型

https://mp.weixin.qq.com/s/TWjFWe6-dZWDoTi5gN1BxA

深度强化学习在指代消解中的一种尝试

您的打赏，是对我的鼓励

DRL » 深度强化学习（十二）——DRL参考资源（2）

DRL参考资源

Recent Posts in DRL

Recent Posts in All Blogs