个人碎碎念channel
欢迎加入聊天吹水群组https://t.me/adelesfriends
DMIT工具箱

curl -fsSL https://box.dmitstock.com | bash
从零构建一个微型vLLM:深入探究大语言模型推理优化 | github

这篇文章用“从零做一个迷你 vLLM”的方式,解释高性能大模型推理引擎在工程上到底优化了什么。作者实现了一个教学向的最小版本 nano-vllm,把 vLLM 常见的关键技术拆开讲清楚,并给出模块化代码结构,方便读者对照理解。
Aayush Garg 撰写的一篇发表在huggingface博客上的技术教程,《PPO From First Principle》(从第一性原理看 PPO)。

该项目的核心目的是摒弃高级封装库(如 Stable Baselines3),完全从零开始用 PyTorch 实现 PPO(Proximal Policy Optimization,近端策略优化)算法,以帮助读者深入理解其底层数学原理和代码逻辑。

很多开发者只会调用现成的 RL 库,但不理解算法内部发生了什么。这篇文章会打破这种黑盒,通过手写每一行核心代码来揭示 PPO 的工作机制 。PPO 是目前最流行的强化学习算法之一(也是 ChatGPT 等大模型 RLHF 阶段背后的核心算法),因为它在实现简单性、样本效率和性能之间取得了很好的平衡 。
OpenCode中文实战课

OpenCode 中文实战课源码与内容仓库:一课一页,覆盖入门到实战工作流。

内容主要面向初学者和非技术人员。
Back to Top