教学项目gpt2-inference，从零开始用 CUDA 构建了一个 GPT-

2026-05-19 14:36:48 蚁工厂科技

教学项目gpt2-inference，从零开始用 CUDA 构建了一个 GPT-2 推理引擎。地址：github.com/Mog9/gpt2-inference通过亲手实现 CUDA kernels、内存管理、tensor routing 和生成循环，理解 Transformer 推理在 GPU 上到底如何执行。

项目包含核心的 Transformer 流程：tiled GEMM kernelsfused attention + softmax kernelsmulti-head causal self-attentiontransformer blocks + MLPsKV cache + autoregressive token generation 等

还围绕它构建了运行时：权重加载、tensor 路由、CUDA 内存管理、生成循环、profiling、benchmarking 等目前在 GPT-2 上的峰值吞吐量约为 190 tokens/sec

所有内容都在作者的 RTX 3050 Laptop GPU 上完成 profiling 和测试。

阅读：0 点赞：0

泡泡资讯网

教学项目gpt2-inference，从零开始用 CUDA 构建了一个 GPT-

热门分类