泡泡资讯网

教学项目gpt2-inference,从零开始用 CUDA 构建了一个 GPT-

教学项目gpt2-inference,从零开始用 CUDA 构建了一个 GPT-2 推理引擎。地址:github.com/Mog9/gpt2-inference通过亲手实现 CUDA kernels、内存管理、tensor routing 和生成循环,理解 Transformer 推理在 GPU 上到底如何执行。

项目包含核心的 Transformer 流程:tiled GEMM kernelsfused attention + softmax kernelsmulti-head causal self-attentiontransformer blocks + MLPsKV cache + autoregressive token generation 等

还围绕它构建了运行时:权重加载、tensor 路由、CUDA 内存管理、生成循环、profiling、benchmarking 等目前在 GPT-2 上的峰值吞吐量约为 190 tokens/sec

所有内容都在作者的 RTX 3050 Laptop GPU 上完成 profiling 和测试。