重要性采样与重参数理解 发表于 2021-06-16 | 评论数: | 阅读次数: 重要性采样与重参数是深度强化学习算法中常用的统计学技巧,比较难理解,遂将一些解读记录如下。 重要性采样重参数利用行为策略产生的数据评估目标策略需要利用重要性采样方法。 参考链接 漫谈重参数:从正态分布到Gumbel Softmax,by 苏剑林. 重要性采样(Importance Sampling)详细学习笔记,by hehedadaq. PR Sampling Ⅰ: 蒙特卡洛采样、重要性采样及python实现,by 刘浚嘉.