强化学习Double DQN方法玩雅达利Breakout游戏完整实现代码与评估pytorch

作者：ranlychan 时间：2024年01月09日分类：机器学习字数：28075

1. 实验环境

1.1 硬件配置

处理器：2*AMD EPYC 7773X 64-Core
内存：1.5TB
显卡：8*NVIDIA GeForce RTX 3090 24GB

1.2 工具环境

Python：3.10.12
Anaconda：23.7.4
系统：Ubuntu 22.04.3 LTS (GNU/Linux 5.15.0-91-generic x86_64)
IDE：VS Code 1.85.1
gym：0.26.2
Pytorch：2.1.2

2. 实现

2.1 Breakout for Atari 2600

模型评估效果
Breakout是一款经典的雅达利游戏，也就是我们所熟知的“打砖块”。玩家需要左右移动在屏幕下方的短平板子将一颗不断弹跳的小球反弹回屏幕上方，使其将一块块矩形砖块组成的六行砖块墙面打碎，并防止小球从屏幕底部掉落。在Atari 2600版本的Breakout中，玩家共有5次小球掉落机会，一旦用完就标志游戏结束，每打掉一块砖块得1分，全部打掉则游戏胜利结束。

图2-1 Breakout for Atari 2600游戏示意图

<center>图2-1 Breakout for Atari 2600游戏示意图</center>

阅读剩余部分

强化学习在生成式预训练语言模型中的研究现状简单调研

作者：ranlychan 时间：2024年01月09日分类：机器学习字数：8613

1. 绪论

本文旨在深入探讨强化学习在生成式预训练语言模型中的应用，特别是在对齐优化、提示词优化和经验记忆增强提示词等方面的具体实践。通过对现有研究的综述，我们将揭示强化学习在提高生成式语言模型性能和人类对话交互的关键作用。虽然这些应用展示了巨大的潜力，但也将讨论现有方法的挑战和可能的未来发展方向。

阅读剩余部分

阅读笔记｜Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills

作者：ranlychan 时间：2023年08月31日分类：笔记,机器学习字数：1275

T. Benson, A. Akella, and D. A. Maltz, “Mining policies from enterprise network configuration,” in Proceedings of the 9th ACM SIGCOMM conference on Internet measurement, Chicago Illinois USA: ACM, Nov. 2009, pp. 136–142. doi: 10.1145/1644893.1644909.

阅读剩余部分