<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>强化学习 on 人生如青山，步步是风景</title><link>https://ppyt.github.io/categories/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</link><description>Recent content in 强化学习 on 人生如青山，步步是风景</description><generator>Hugo -- 0.160.0</generator><language>zh-cn</language><lastBuildDate>Sat, 21 Mar 2026 13:30:00 +0800</lastBuildDate><atom:link href="https://ppyt.github.io/categories/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/index.xml" rel="self" type="application/rss+xml"/><item><title>基于 verl 的强化学习算法对比：PPO、GRPO 与 DAPO</title><link>https://ppyt.github.io/posts/%E5%9F%BA%E4%BA%8Everl%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AE%97%E6%B3%95%E5%AF%B9%E6%AF%94/</link><pubDate>Sat, 21 Mar 2026 13:30:00 +0800</pubDate><guid>https://ppyt.github.io/posts/%E5%9F%BA%E4%BA%8Everl%E7%9A%84%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AE%97%E6%B3%95%E5%AF%B9%E6%AF%94/</guid><description>本文结合 verl 框架，深入对比 PPO、GRPO 和 DAPO 三种 LLM 强化学习算法的原理与实现细节，并在 GSM8K 上进行实验验证。</description></item></channel></rss>