Antkillerfarm Hacking V7.0

深度强化学习(七)——MARL

2019-10-22

AlphaGo(续)

KataGo

KataGo是2019年以后发起的一个新项目,主要解决了Leela Zero和ELF OpenGo耗费算力过多的问题。它不仅训练更快,推理也有极大改进,即使家用显卡PC也可在合理的时间算出结果。支持更多的规则(如日本规则),改善了AlphaGo胜势下缓手的缺陷。

目前,KataGo的棋力已经超越了Leela Zero和ELF OpenGo。

官网:

https://katagotraining.org/

参考

https://blog.csdn.net/amds123/article/details/70666594

论文笔记:Mastering the game of Go with deep neural networks and tree search

https://mp.weixin.qq.com/s/Sfv-jzQAkN0PsZOGZUQhkQ

AlphaGo Zero横空出世,DeepMind Nature论文解密不使用人类知识掌握围棋

https://mp.weixin.qq.com/s/oAxouYX7-wDC5okbu–Wuw

Nature重磅:人工智能从0到1, 无师自通完爆阿法狗100-0

https://zhuanlan.zhihu.com/p/30262872

关于AlphaGo Zero

https://zhuanlan.zhihu.com/p/30263585

DeepMind新一代围棋程序AlphaGo Zero再次登上Nature

https://www.zhihu.com/question/66861459

如何评价DeepMind发表在Nature上的AlphaGo Zero?

https://deepmind.com/blog/alphago-zero-learning-scratch/

AlphaGo Zero官方声明

https://zhuanlan.zhihu.com/mathNote

某牛的专栏,主要讲自制AlphaGo

http://xtf615.com/2018/02/10/AlphaGo/

Alpha Go论文解析

http://xtf615.com/2018/02/12/AlphaGo-Zero/

AlphaGo Zero论文解析

http://xtf615.com/2018/02/24/AlphaZeroDesign/

AlphaZero问题研究和算法设计与实现

https://mp.weixin.qq.com/s/DC9QqHdWT0xFnowEBuJDbw

自动化所解读“深度强化学习”:从AlphaGo到AlphaGoZero

https://mp.weixin.qq.com/s/uZtaxRwROCqYmL2k6Muxaw

从阿尔法狗元(AlphaGo Zero)的诞生看终极算法的可能性

https://mp.weixin.qq.com/s/i5OmLu8aNbypiTUmP4teeQ

刘遥行:深入浅出看懂AlphaGo Zero

https://mp.weixin.qq.com/s/aBrwbB_DOGTen-6XL7LGFQ

邓侃:白话蒙特卡洛树搜索和ResNet

https://mp.weixin.qq.com/s/nbTkr0PImlXUSYl91HD91Q

AlphaGo背后的力量:蒙特卡洛树搜索入门指南

https://mp.weixin.qq.com/s/-tH7DQo1cK9gA0bcpBJSDA

AlphaGo Zero:笔记与伪代码

https://mp.weixin.qq.com/s/CJuVoOf7idUChFIn7dH0Lg

围棋中的数学原理

https://mp.weixin.qq.com/s/d46qNFaftt4wxpV4sZnG-w

一张图看懂AlphaGo Zero

https://zhuanlan.zhihu.com/p/31749249

比AlphaGo Zero更强的AlphaZero问世,8小时解决一切棋类!

https://mp.weixin.qq.com/s/L7bZMkqyncwEt6D5tK1OdQ

AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏

https://mp.weixin.qq.com/s/tFdnxqV5a5xZrFtB6E0AiQ

新AlphaZero出世称霸棋界,8小时搞定一切棋类!自对弈通用强化学习无师自通!

https://mp.weixin.qq.com/s/NwuuNIc9kc2qOGQP2pvRnA

AlphaZero原理与启示

https://mp.weixin.qq.com/s/8Zv3ElL2nWK-UDOHNjKb4g

从源码解密AlphGo Zero背后基本原理

https://mp.weixin.qq.com/s/qYWsFBKNCKCGUmizX_1sVg

AlphaGo 教学工具终于上线了!

https://mp.weixin.qq.com/s/JxbIeDk8_wnYu_ewUHp29g

深度学习与围棋实战书籍《Deep Learning and the Game of Go》

https://mp.weixin.qq.com/s/gsRnbknytz2FY2dWgdWEYg

精通国际象棋的AI研究员:AlphaZero真的是一次突破吗?

https://zhuanlan.zhihu.com/p/31809930

浅述:从Minimax到AlphaZero,完全信息博弈之路(1)

https://zhuanlan.zhihu.com/p/32073374

浅述:从Minimax到AlphaZero,完全信息博弈之路(2)

https://zhuanlan.zhihu.com/p/32089487

AlphaZero实战:从零学下五子棋

http://mp.weixin.qq.com/s/72riTTC3w0q9oF5H-51kXA

手把手教你搭建AlphaZero(使用Python和Keras)

https://mp.weixin.qq.com/s/Qw2tT7H1PwDvPgOYy8YUsQ

AlphaGo Zero代码迟迟不开源,TF等不及自己推了一个

https://mp.weixin.qq.com/s/Vq-osjgNXJQu5avGkxQdsw

手把手:AlphaGo有啥了不起,我也能教你做一个

https://mp.weixin.qq.com/s/ajajJ9yJZsOy4Vc0ULBxXg

国际象棋版AlphaZero出来了诶,还开源了Keras实现

https://zhuanlan.zhihu.com/p/41814142

从源码解密AlphaGo Zero背后基本原理

https://www.ifanr.com/630602

AlphaGo的棋局,与人工智能有关,与人生无关

https://mp.weixin.qq.com/s/J0w6kzzdKTbsaiZitbQdoA

达观数据:一文详解AlphaGo原理

https://mp.weixin.qq.com/s/BBQ54HHrFiqxXkC-EI6ELw

Science封面:AlphaZero达成终极进化体,史上最强棋类AI降临!

https://mp.weixin.qq.com/s/Pgw_xaCNl_kCPCg8NFzUBQ

人类没法下了!DeepMind贝叶斯优化调参AlphaGo,自弈胜率大涨16.5%

https://mp.weixin.qq.com/s/eE3oL6c5zHmTglHE-dgBvg

详解AlphaGo到AlphaGo Zero!

https://mp.weixin.qq.com/s/aAF0Gr7yEPkHRLASecJipw

百度正用谷歌AlphaGo,解决一个比围棋更难的问题

https://hackernoon.com/the-3-tricks-that-made-alphago-zero-work-f3d47b6686ef

The 3 Tricks That Made AlphaGo Zero Work

https://web.stanford.edu/~surag/posts/alphazero.html

A Simple Alpha(Go) Zero Tutorial

https://mp.weixin.qq.com/s/362skBPuwxS-bLcvv14MQg

井字棋、五子棋AlphaGo Zero算法实战

https://mp.weixin.qq.com/s/IaJoaQJw68JXBN93d680PQ

深入浅出解读并思考AlphaGo

https://mp.weixin.qq.com/s/foiyPVtLH5KVe_ST5rn-EQ

深度学习与围棋:为围棋数据设计神经网络

https://mp.weixin.qq.com/s/AcdhvGO-SdqODMFuVBJvUA

AI杀入斗地主领域,快手开发DouZero对标AlphaZero,干掉344个AI获第一

MARL

Multi-agent Reinforcement Learning(MARL),一般被称为多智能体强化学习。与之相对的则是Single-agent Reinforcement Learning(SARL)。

书籍:

http://www.masfoundations.org/download.html

《MULTIAGENT SYSTEMS Algorithmic, Game-Theoretic, and Logical Foundations》

以下主要参考了如下文章:

https://zhuanlan.zhihu.com/p/39037444

多智能体强化学习笔记 01

https://zhuanlan.zhihu.com/p/43579796

多智能体强化学习笔记 02

论文:

《Multi-agent reinforcement learning: An overview》

《Game Theory and Multi-agent Reinforcement Learning》

《Is multiagent deep reinforcement learning the answer or the question? A brief survey》

MARL应用了大量博弈论的知识,可参见《强化学习(十)》。


多智能体学习有三种范式:集中式学习、独立式学习和集中式训练分布式执行(Centralized Training with Decentralized Execution, CTDE)。

集中式学习将整个系统视为一个整体,采用单智能体强化学习算法训练,解决了环境非平稳问题,但需要上帝视角全局通信,无法解决无通信、大规模和大动作空间的问题;

独立式学习让每个智能体独立训练自己的策略,忽视了多智能体系统的特性,带来环境极不平稳问题;

集中式训练分布式执行作为折中,训练时拥有上帝视角,执行时独立决策,一定程度上解决了上述问题,是一种比较好的方法。

https://zhuanlan.zhihu.com/p/349092158

多智能体强化学习路线图 (MARL Roadmap)


我们使用如下示例,探讨一下什么是MARL?

上图是两个智能体1、2将金条(object)搬运回家的例子。这根金条需要两个人一人抬着一边才能扛回家。

要想把金条扛回家,小红和小蓝必须先绕过障碍物,然后每个人到达金条的一边,扛起金条后,两人还得绕开家门口的障碍物,这样才能将金条扛回家。

从上面的问题可以看出,MARL至少应该包括如下几个要素:

  • 在多智能体系统中至少有两个智能体。

  • 智能体之间存在着一定的关系,如合作关系(如本例),竞争关系(如多人游戏),或者同时存在竞争与合作的关系。

  • 每个智能体最终所获得的回报不仅仅与自身的动作有关系,还跟对方的动作有关系。如本例中每个智能体要想获得回报,必须是金条被两个智能体一起搬回家。

SARL用MDP来描述,而MARL则需要用Markov game(马尔科夫博弈,又称随机博弈(stochastic game))来描述。

类似于MDP,Markov game可形式化表示为:

\[(n,S,A_1,\dots,A_n,T,\gamma,R_1,\dots,R_n)\]

n为玩家的个数,在本例中n为2。

S为系统状态,一般指多智能体的联合状态,即每个智能体的联合状态。

T为状态转移函数,指给定玩家当前状态和联合行为时,下一状态的概率分布。

R为回报函数。它描述了多智能体之间的关系。当每个智能体的回报函数一致时,则表示智能体之间是合作关系;当回报函数相反时,则表示智能体之间是竞争关系,当回报函数介于两者之间,则是混合关系。

MARL的结构一般如下图所示。

静态博弈:static/stateless game是指没有状态s,不存在动力学使状态能够转移的博弈。例如一个矩阵博弈。

阶段博弈:stage game,是随机博弈的组成成分,状态s是固定的,相当于一个状态固定的静态博弈,随机博弈中的Q值函数就是该阶段博弈的奖励函数。若干状态的阶段博弈组成一个随机博弈。

重复博弈:智能体重复访问同一个状态的阶段博弈,并且在访问同一个状态的阶段博弈的过程中收集其他智能体的信息与奖励值,并学习更好的Q值函数与策略。


MARL的目标是找到每一个状态的纳什均衡策略,然后将这些策略联合起来。

Game setting
Stateless Games Team Markov Games General Markov Games
Information
Requirement
Independent Learners Stateless Q-learning
Learning Automata
IGA
FMQ
Commitment Sequences
Lenient Q-learners
Policy Search
Policy Gradient
MG-ILA
(WoLF-)PG
Learning of Coordination
Independent RL
CQ-learning
Joint Action Learners Distributed- Q
Sparse Tabular Q
Utile Coordination
Nash-Q
Friend-or-Foe Q
Asymmetric Q
Joint Action Learning
Correlated-Q

参考:

https://zhuanlan.zhihu.com/c_1061939147282915328

一个MARL方面的专栏

https://www.zhihu.com/people/yao-xing-hu/posts

一个MARL方面的专栏

https://github.com/LantaoYu/MARL-Papers

Paper list of multi-agent reinforcement learning (MARL)

Fork me on GitHub