Back
AgentEvolver 是一个试验性的智能体自动进化框架。
llm
agent
强化学习
谈 RL,一个肯定绕不过去的话题就是 PPO,后续很多强化学习算法都是在 PPO 之上的改进,况且 PPO 本身的确也是介绍 RL 的良好例子。所以我们先讲 PPO。
大模型