强化学习 on 人生如青山，步步是风景

强化学习 on 人生如青山，步步是风景https://ppyt.github.io/categories/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/Recent content in 强化学习 on 人生如青山，步步是风景Hugo -- 0.160.0zh-cnSat, 21 Mar 2026 13:30:00 +0800基于 verl 的强化学习算法对比：PPO、GRPO 与 DAPOhttps://ppyt.github.io/posts/%E5%9F%BA%E4%BA%8Everl%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AE%97%E6%B3%95%E5%AF%B9%E6%AF%94/Sat, 21 Mar 2026 13:30:00 +0800https://ppyt.github.io/posts/%E5%9F%BA%E4%BA%8Everl%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AE%97%E6%B3%95%E5%AF%B9%E6%AF%94/本文结合 verl 框架，深入对比 PPO、GRPO 和 DAPO 三种 LLM 强化学习算法的原理与实现细节，并在 GSM8K 上进行实验验证。