多智能体强化学习

强化学习的核心思想是“试错”(trial-and-error):智能体通过与环境的交互,根据获得的反馈信息迭代地优化。在 RL 领域,待解决的问题通常被描述为马尔科夫决策过程。

当同时存在多个智能体与环境交互时,整个系统就变成一个多智能体系统(multi-agent system)。每个智能体仍然是遵循着强化学习的目标,也就是是最大化能够获得的累积回报,而此时环境全局状态的改变就和所有智能体的联合动作(joint action)相关了。因此在智能体策略学习的过程中,需要考虑联合动作的影响。

马尔科夫决策过程拓展到多智能体系统,被定义为马尔科夫博弈(又称为随机博弈,Markov/stochastic game)。

完全合作式

完全竞争式

混合关系式

MADDPG算法

MADDPG是OpenAI给的仿真代码。

安装MADDPG

安装步骤如下:

  1. 安装pyenv,用于python的多版本管理
  2. 使用pyenv安装python 3.5.4
  3. 使用venv创建虚拟环境
  4. 使用pip安装OpenAI gym (0.10.5), tensorflow (1.8.0), numpy (1.14.5)

注意使用pip安装tensorflow (1.8.0)时,可能报错,需要先安装grpcio(1.10.1)。

参考链接

  1. 万字长文:详解多智能体强化学习的基础和应用,by 机器之心.
  2. 多智能体强化学习综述-Lucian Busoniu,by Xray.
  3. AlphaGo原来是这样运行的,一文详解多智能体强化学习的基础和应用,by 机器之心.
  4. 多智能体强化学习中的非平稳性问题,by hoogle.
  5. 深度强化学习的弱点和局限,by 论智.
  6. Self-Play:让计算机学会相扑的强化学习“左右互搏术” ,by 贪心科技.
  7. 从Fictitious Play 到 NFSP,by Yumho.
  8. 传统的战略式博弈求解方法——虚拟博弈(Fictitious Play)讲解及其代码,by 码农家园.
  9. 【论文阅读】Deep Reinforcement Learning from Self-Play in Imperfect-Information Games,by 博弈真的不简单啊.
  10. 多智能体博弈强化学习研究综述笔记,by 一丨.
  11. 多智能体博弈强化学习研究综述笔记,by 一丨.
  12. 【多智能体RL】Actor-Attention-Critic for Multi-Agent RL,by 星桥翊月.
  13. COMA:Counterfactual Multi-Agent Policy Gradients,by 张现杰.
  14. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments,by AHU-WangXiao.
  15. 丧的时候写写东西总没错,《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》,by 王小惟 Weixun.
  16. 多智能体强化学习入门(四)——MADDPG算法,by ECKai.
  17. 从代码到论文理解并复现MADDPG算法(基于飞桨的强化学习套件PARL),by Mr.郑先生_.
  18. maddpg原理以及代码解读,by Jianeng.
  19. linux中配置MPE和MADDPG环境,by codenong.
  20. Multi-agent Particle Environment - MPE多智能体强化学习运行环境的任务简介,by 普通攻击往后拉.
  21. 左右互搏,self-play,《Emergent Complexity via Multi-Agent Competition》,by 王小惟 Weixun.
  22. 多智能体深度强化学习综述与批判,by Xray.
  23. 伯克利开源工具库 RLib 现已支持大规模多智能体强化学习,by Eric Liang.
  24. python2 安装 tensorflow 遇到问题,by leo_fengj.