基于 verl 的强化学习算法对比:PPO、GRPO 与 DAPO

本文结合 verl 框架,深入对比 PPO、GRPO 和 DAPO 三种 LLM 强化学习算法的原理与实现细节,并在 GSM8K 上进行实验验证。

March 21, 2026 · 大青山

LLM/MLLM中的位置编码

位置编码是大模型的基础概念之一,本文从位置编码需满足的条件出发,分析绝对位置编码和旋转位置编码(RoPE)的原理,及其在多模态大模型中的拓展。

August 31, 2025 · 大青山

从零讲透 LLM 工具调用:Function Call、MCP 与 Skills 如何分工与配合

本文用同一组工具和渐进式示例,从零讲透 Function Call、MCP 和 Skills 三种 LLM 工具调用方案各自解决什么问题、工作在哪一层、真实项目里怎么组合使用。

April 7, 2025 · 大青山