重要性采样与重参数理解

重要性采样与重参数是深度强化学习算法中常用的统计学技巧,比较难理解,遂将一些解读记录如下。

重要性采样

重参数

利用行为策略产生的数据评估目标策略需要利用重要性采样方法。

参考链接

  1. 漫谈重参数:从正态分布到Gumbel Softmax,by 苏剑林.
  2. 重要性采样(Importance Sampling)详细学习笔记,by hehedadaq.
  3. PR Sampling Ⅰ: 蒙特卡洛采样、重要性采样及python实现,by 刘浚嘉.