LLM | 人生如青山，步步是风景

基于 verl 的强化学习算法对比：PPO、GRPO 与 DAPO

本文结合 verl 框架，深入对比 PPO、GRPO 和 DAPO 三种 LLM 强化学习算法的原理与实现细节，并在 GSM8K 上进行实验验证。

位置编码是大模型的基础概念之一，本文从位置编码需满足的条件出发，分析绝对位置编码和旋转位置编码（RoPE）的原理，及其在多模态大模型中的拓展。

本文用同一组工具和渐进式示例，从零讲透 Function Call、MCP 和 Skills 三种 LLM 工具调用方案各自解决什么问题、工作在哪一层、真实项目里怎么组合使用。