Back
突发奇想,光速写出来的 AI 海龟汤小游戏。没什么特别的技术,希望你玩得开心。
大模型
谈 RL,一个肯定绕不过去的话题就是 PPO,后续很多强化学习算法都是在 PPO 之上的改进,况且 PPO 本身的确也是介绍 RL 的良好例子。所以我们先讲 PPO。
强化学习