现代多核处理器上的高级矩阵乘法优化salykova.github.io/gemm

蚁工厂 2025-10-04 15:04:40

现代多核处理器上的高级矩阵乘法优化

salykova.github.io/gemm-cpu

这篇博客文章介绍了如何在现代多核处理器上优化多线程的FP32矩阵乘法,利用FMA3和AVX2向量指令。实现能够在多种x86-64 CPU上,单线程和多线程情况下都表现出强大的性能。要达到最佳性能,需要调整超参数,如线程数量、内核大小和块大小。

另外,在AVX-512支持的CPU上,使用BLAS库可能会更快。不过本文有意省略了AVX-512指令,以支持更广泛的处理器。

0 阅读:6
蚁工厂

蚁工厂

感谢大家的关注