Antkillerfarm Hacking V8.5

DRL » 深度强化学习（十三）——DRL参考资源（3）

2026-02-27 :: 4967 Words

DRL参考资源
秦汉+

DRL参考资源

https://mp.weixin.qq.com/s/YnMgJDAh3XhyyNdI8RXmtw

腾讯知文等提出新型生成式摘要模型：结合主题信息和强化训练生成更优摘要

https://mp.weixin.qq.com/s/VrVdsxn94ux_46mIyS8f0w

谷歌大脑实现更宽广的智能体视野，在Atari2600上可持续超越人类玩家！

https://mp.weixin.qq.com/s/P5EysBHBaR6L3IfeSgo6fw

强化学习20分钟，剑桥博士教汽车学会自动驾驶！

https://mp.weixin.qq.com/s/ij3bf61Pu7lrX0WijhbDeA

骑驴找马：利用深度强化学习模型定位新物体

https://mp.weixin.qq.com/s/iYxijHlE3sLJgKnwwd8Tgg

使用深度强化学习和贝叶斯优化获得巨额利润

https://mp.weixin.qq.com/s/_QkxCrQlyRM10eZK8aNCKA

强化学习在携程酒店推荐排序中的应用探索

https://mp.weixin.qq.com/s/fWySZWsYEKBRwYaFL3J2Xg

强化学习大规模应用还远吗？Youtube推荐已强势上线

https://mp.weixin.qq.com/s/nHBczPlffhZrJy4G4oJ1Ag

让神经网络懂得黄金法则

https://mp.weixin.qq.com/s/0dUlVC9I8qmv3f2BB0IFew

强化学习介绍及自动驾驶汽车应用

https://mp.weixin.qq.com/s/_Di73PkEWJV1-OLLHfz7yQ

组合在线学习：实时反馈玩转组合优化

https://mp.weixin.qq.com/s/NkrPfitZ6o75XaGxGC0eZw

谷歌发布离线强化学习新范式，克服RL智能体只能在线训练难题，训练集相当于200多个ImageNet

https://mp.weixin.qq.com/s/nEw0Vem-aL9D6w-1lEAsBQ

字节跳动基于深度强化学习的广告推荐模型DEAR

https://mp.weixin.qq.com/s/xG7IboDg6tn13rRIgKSICg

强化学习中从仿真器到现实环境的迁移

https://mp.weixin.qq.com/s/CcJrsbYO70GwOcedUXnHdg

除了网红，强化学习也能带货？

https://mp.weixin.qq.com/s/u44neSzF2Iqyv-i1Fc4lsQ

脱胎换骨的生成模式：强化学习重排

https://mp.weixin.qq.com/s/oZDDP59o-1qwfz8prK3nJQ

伯克利最新研究：如何用目标图像进行机器视觉强化学习？

https://mp.weixin.qq.com/s/00zHwpw2xWP2fR9sDHE2Xw

BAIR讲述如何利用深度强化学习控制灵活手

https://mp.weixin.qq.com/s/V7RESEm4xzhW8tXEjKjn1Q

层次强化学习、记忆与预测模型

https://mp.weixin.qq.com/s/aNskPERmekw9yQVb7A3GPQ

Google大脑最新研究成果：使用强化学习实现动态系统的韧性计算

https://mp.weixin.qq.com/s/pJkCOCl6o70le1WsE9p3pg

在全景视频中预测头部运动：一种深度强化学习方法

https://mp.weixin.qq.com/s/fodjmmh_jJMh4hD3m2OrLg

凭借幻想的目标进行视觉强化学习

https://mp.weixin.qq.com/s/6HVSh7_9Akmf6OE8PGNy6Q

怎样让AI完成人类搞不定的任务？OpenAI提出迭代扩增法给AI设目标

https://mp.weixin.qq.com/s/JpZimrHALjuc-H9WF8sPZg

智能体只想看电视？谷歌新型好奇心方法让智能体离开电视继续探索

https://mp.weixin.qq.com/s/dic_ssebe32L30pAUxlP6w

谷歌AI-强化学习中的好奇和拖延

https://mp.weixin.qq.com/s/tieGV_tDWkVVW2YFes4AqA

学习何时做分类决策，深度好奇提出强化学习模型Jumper

https://mp.weixin.qq.com/s/THgo4YzhUN2PUkyI5sSnpw

开源啦：连DeepMind也捉急的游戏，OpenAI给你攻破第一关的高分算法

https://mp.weixin.qq.com/s/loH6M0_U1DVrod0Drkl4eg

深度强化学习教机器人自己穿衣服！

https://mp.weixin.qq.com/s/VqPPQnH22Y-XeojNEZn3YQ

CoRL 2018最佳系统论文：如此鸡贼的机器手，确定不是人在控制？

https://mp.weixin.qq.com/s/eEQhwV1cA4nEgEBcOKDenA

将逆向课程生成用于强化学习：伯克利新研究让智能体掌握全新任务

https://mp.weixin.qq.com/s/cO1VlYGwdRBAbPs7IgvcAA

超越传统强化学习的价值分布方法

https://mp.weixin.qq.com/s/s7c0oleKCmdI2Kh9pDPsXw

强化学习需要批归一化(Batch Norm)吗？

https://mp.weixin.qq.com/s/2nn56lpWe7YYU0CrRYrvbA

强化学习在智能交通灯中的应用

https://mp.weixin.qq.com/s/nk-X88bF6LiAywnqRz3REQ

Youtube推荐RL首弹，基于Top-K的Off-Policy矫正解决推荐中的信息茧房困境

https://mp.weixin.qq.com/s/EPLvdQFiT1MiGgG7u4Qoqg

基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

https://mp.weixin.qq.com/s/X8STHGKlJYN2Qizz4t8Llg

Accelerating DRL via Human knowledge

https://zhuanlan.zhihu.com/p/145983063

大规模深度强化学习的发展

https://zhuanlan.zhihu.com/p/53326459

深度强化学习中的好奇心

https://zhuanlan.zhihu.com/p/79712897

动态环境下基于DRL的无人车自适应路径规划方法

https://mp.weixin.qq.com/s/LdkPnm8vo8oeYzIC0Imlvw

俞扬：强化学习真实环境不好用？那就模拟器来凑！

https://mp.weixin.qq.com/s/GcjoZfasWNZWlTC_xP1_wg

通用强化学习用算法发现算法：DeepMind 数据驱动“价值函数”自我更新，14款Atari游戏完虐人类！

https://mp.weixin.qq.com/s/IFIXvZ_9oEzHJI34_dFI8g

训练DQN模型，loss出现nan，要怎么解决？

https://mp.weixin.qq.com/s/RE43jNFKbOj0DcLpGnAY7g

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

https://mp.weixin.qq.com/s/Sxrp3EZ8LCA3d06Zm5meKQ

《深度强化学习中的迁移学习》2020综述论文，22页pdf

https://mp.weixin.qq.com/s/ylavFA_MXLUhIBLCqxAjLQ

阿里强化学习重排实践

https://mp.weixin.qq.com/s/0o-dNtmafC2paA6gqTRkKA

一步步详解用TD3算法通关BipedalWalkerHardcore-v2环境

秦汉+

李陵字少卿，而被俘的汉军中不止一位姓李，也不止一位字少卿，恰好就有那么一个汉军叫李绪，字少卿，投降匈奴之后教匈奴如何打汉军。

而匈奴人也往往搞不清汉人的姓名字的区别，所以公孙敖在问的时候，匈奴俘虏误把李绪当成了李陵，这导致了后面的灭族事件，而在此事件之后李陵才不得不投降匈奴。

霍光、苏武和李陵的关系都非常要好。汉昭帝时代，苏武是掌管外交的典属国，霍光是执政大将军，他们曾经主动派人到匈奴。想再次迎接李陵回国，只是李陵不愿意回到汉朝，觉得再次会受到耻辱，这证明在霍光、苏武乃至汉朝朝堂之上，在清楚了这前后是误会之后，也认为李陵并不是什么叛徒。

王莽篡汉后得到一个预言，就是说日后一个叫刘秀的会代替他，于是王莽下令让亲信在全国秘密搜捕叫刘秀的人。

偏偏京城有一个精通周易八卦的刘氏宗室叫刘歆，他也偶然间得到此卦言。当然，他并不知道王莽也在找此人，他想了想，干脆自己取名叫刘秀吧。

但是想不到的是第二天就被王莽的人带到了王莽面前，王莽一看是昔日旧友更加震惊，坚信是他，于是，刘歆卒，随即也停止了搜捕叫刘秀的。

根据《后汉书光武帝纪第一上》记载：战前一夜，有流星坠营中，昼有云如坏山，当营而陨，不及地尺而散，吏士皆厌伏，新军大乱。

意思就是这天晚上居然下起了流星雨。而且这流星雨还正砸向了王莽新军的大营，许多将士被铺天盖地的陨石都给吓蒙了。

与此同时，刘秀率领数千精锐战骑，直取王莽军队主将王邑、王寻，并且斩杀王寻，王莽几十万大军瞬间大乱，相继逃跑。

碰巧又遇上大风和大雷雨，屋瓦被大风刮走，大雨倾盆而下，洪水暴涨，王邑军随队的虎豹都吓得发抖，纷纷乱走，又被冲散。

PS：最近玩了轩辕剑7，游戏里理军的天火炮+主角开闸放水，大概就对应了上述记载。

https://new.qq.com/rain/a/20200102A0IJAR00

刘秀为何被称为位面之子？

阴曹地府刚来了四个人，彼此间谈起死亡的原因。

第一个人说：“我因为反对太子刘据。”

第二个人说：“我因为支持太子刘据。”

第三个人说：“我因为不表态支持或反对刘据。”

第四个人说：“我就是刘据。”

望门投止

侯览假借皇帝命令，向各郡县发出搜捕张俭的通令，凡敢收藏张俭者，格杀勿论。张俭见官府人马来势汹汹，只好匆匆逃跑，看到谁家可以避难，就投在谁家门下，暂时安身。当时，人们恨透了宦官，都知道张俭历来正直，名声很好，所以人们都甘冒风险收留他。

一天，张俭逃到鲁郡，投奔好友孔褒。孔褒不在，孔褒的小兄弟孔融当时只有十六岁，他热情地接待了张俭。张俭走后，官府闻讯赶来，逮捕了孔褒、孔融及他们的老母亲加以审问，孔融说：“是我招待了张俭，要治罪就治我吧。”孔褒说：“张俭是来投奔我的，要办就办我的罪，与我弟弟无关。”孔母说：“我是一家之主，要办就办我的罪。”他们一家争着承担责任，闹得官府不知如何处置。

秦朝的县级行政长官叫令，而楚国的县级行政长官称公。

沛公不是沛县的公爵，而是沛县的县长。称沛公就是造反的意思。

针对秦二世长于深宫之内的情况，刘邦的方案是皇帝得找个能打的，像他一样能带兵的，把兵权握在自己手里，那就不怕功臣和诸侯们。所以刘邦属意赵王刘如意当太子接班，而不喜欢唯唯诺诺的刘盈。

而萧何的解决方案，则是靠外戚。萧何认为秦亡国的原因就是秦始皇太自我，没有让胡亥母亲一家外戚参与政治，辅翼皇权。刘盈不能带兵打仗没关系，汉帝国代代相传，不可能每任皇帝都能带兵。只要找个能打能统兵的外戚就好。

可是最终，汉帝国出现文帝这个厉害人物，是出乎刘邦和萧何意料之外的。文帝既不靠兵权，也没有强力外戚，而纯靠政治手段，就把政变的功臣们和虎视皇位的诸侯王们摆平，平稳的把皇位传给了景帝。

杜根上书认为安帝年已长，应该亲政。邓太后大怒，命武士将之装入布袋，在殿上击杀之。

执法者感其义，不忍杀之，私语行刑人轻打，杜根得以求生，邓太后又命人检查尸体，然三日后，杜根眼睛生出蛆，因而蒙骗过去，之后他逃入宜城山中，在酒肆当一名酒保，前后隐居十五年。

您的打赏，是对我的鼓励

DRL » 深度强化学习（十三）——DRL参考资源（3）

DRL参考资源

秦汉+

Recent Posts in DRL

Recent Posts in All Blogs