强化学习的核心思想是“试错”(trial-and-error):智能体通过与环境的交互,根据获得的反馈信息迭代地优化。在 RL 领域,待解决的问题通常被描述为马尔科夫决策过程。
当同时存在多个智能体与环境交互时,整个系统就变成一个多智能体系统(multi-agent system)。每个智能体仍然是遵循着强化学习的目标,也就是是最大化能够获得的累积回报,而此时环境全局状态的改变就和所有智能体的联合动作(joint action)相关了。因此在智能体策略学习的过程中,需要考虑联合动作的影响。
马尔科夫决策过程拓展到多智能体系统,被定义为马尔科夫博弈(又称为随机博弈,Markov/stochastic game)。
完全合作式
完全竞争式
混合关系式
MADDPG算法
MADDPG是OpenAI给的仿真代码。
安装MADDPG
安装步骤如下:
- 安装pyenv,用于python的多版本管理
- 使用pyenv安装python 3.5.4
- 使用venv创建虚拟环境
- 使用pip安装OpenAI gym (0.10.5), tensorflow (1.8.0), numpy (1.14.5)
注意使用pip安装tensorflow (1.8.0)时,可能报错,需要先安装grpcio(1.10.1)。
参考链接
- 万字长文:详解多智能体强化学习的基础和应用,by 机器之心.
- 多智能体强化学习综述-Lucian Busoniu,by Xray.
- AlphaGo原来是这样运行的,一文详解多智能体强化学习的基础和应用,by 机器之心.
- 多智能体强化学习中的非平稳性问题,by hoogle.
- 深度强化学习的弱点和局限,by 论智.
- Self-Play:让计算机学会相扑的强化学习“左右互搏术” ,by 贪心科技.
- 从Fictitious Play 到 NFSP,by Yumho.
- 传统的战略式博弈求解方法——虚拟博弈(Fictitious Play)讲解及其代码,by 码农家园.
- 【论文阅读】Deep Reinforcement Learning from Self-Play in Imperfect-Information Games,by 博弈真的不简单啊.
- 多智能体博弈强化学习研究综述笔记,by 一丨.
- 多智能体博弈强化学习研究综述笔记,by 一丨.
- 【多智能体RL】Actor-Attention-Critic for Multi-Agent RL,by 星桥翊月.
- COMA:Counterfactual Multi-Agent Policy Gradients,by 张现杰.
- Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments,by AHU-WangXiao.
- 丧的时候写写东西总没错,《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》,by 王小惟 Weixun.
- 多智能体强化学习入门(四)——MADDPG算法,by ECKai.
- 从代码到论文理解并复现MADDPG算法(基于飞桨的强化学习套件PARL),by Mr.郑先生_.
- maddpg原理以及代码解读,by Jianeng.
- linux中配置MPE和MADDPG环境,by codenong.
- Multi-agent Particle Environment - MPE多智能体强化学习运行环境的任务简介,by 普通攻击往后拉.
- 左右互搏,self-play,《Emergent Complexity via Multi-Agent Competition》,by 王小惟 Weixun.
- 多智能体深度强化学习综述与批判,by Xray.
- 伯克利开源工具库 RLib 现已支持大规模多智能体强化学习,by Eric Liang.
- python2 安装 tensorflow 遇到问题,by leo_fengj.