阅读笔记｜Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills

这篇文章距离上次修改已过701天，其中的内容可能已经有所变动。

T. Benson, A. Akella, and D. A. Maltz, “Mining policies from enterprise network configuration,” in Proceedings of the 9th ACM SIGCOMM conference on Internet measurement, Chicago Illinois USA: ACM, Nov. 2009, pp. 136–142. doi: 10.1145/1644893.1644909.

1.1 背景

强化学习通过环境交互获得经验进行学习，但有时样本不足以保证收敛。利用人类先验知识可以帮助强化学习。
从单一训练师获得足够优质反馈很难，需要考虑多个训练师。但反馈可能不一致、不频繁。

1.2 方法

基于Advise算法，扩展以接受多个训练师的反馈。同时假设事先不知道并需要估计每个训练师的一致性水平(正确反馈概率)，假设训练师的策略符合二项分布，可由其反馈进行估计并应用于智能体的策略。
使用EM算法估计状态-动作对的一致性水平C(s,a)，然后取平均得到具体训练师一致性C。
设计自适应学习率α以递归地高精度估计一致性水平C，学习率α决定了当前状态-动作对的一致性水平估计C(s,a)对总体一致性水平C的更新强度。学习率越大,当前C(s,a)的影响就越大。
根据所有训练师一致性水平，贝叶斯聚合其反馈产生新的策略，一致性高的训练师的反馈影响大。

1.3 结论

实验结果显示，可以正确估计训练师一致性水平，即使存在对抗训练师。
多个训练师可以提高反馈质量，学习速度接近事先知道一致性水平的情况。
一致性水平估计本身也很有价值，可以诊断训练师和强化学习设置的问题。
未来工作包括处理连续状态/动作，以及针对不同状态估计一致性。

1.4 个人思考

利用人类反馈在强化学习中训练更具备鲁棒性和探索性的智能体的技术显然已经在ChatGPT等语言模型上得以成功应用，其收集二元反馈的直观表现就包括了每次生成内容都可以点赞或者踩这一方式。然而正如本文所述，庞杂的用户群体中并非人人都是专家，所收集的反馈存在不一致问题。故而对反馈及提出反馈的trainer进行一致性水平评估是一个很直接的具有统计基础的解决思路，并且可以实现对群体反馈的融合。
考虑将带群体反馈优化的强化学习用于网络设备配置文本生成，可能存在一些需要进一步了解的地方。首先是人类trainer的策略是否能沿用文章中的二项分布？其次是文本生成场景下的状态-动作对的粒度该如何划分，具体说就是是否应该将生成内容整体作为动作看待（即单个状态动作对），还是将内容文本拆开来看（即连续动作状态对，参考自回归的思路，将前面步的生成内容也作为状态中的参数，而待生成对下一步作为动作）。