AI & ML 2026-2-8

近期研究揭示部分矩阵乘法引擎存在精度问题，引发对计算可靠性的关注；同时，通过核融合技术显著提升Mamba2加速性能，推动高效序列建模发展。

Some Matrix Multiplication Engines Are Not As Accurate As We Thought 87

Tags: GEMM Tensor Cores FP8 accumulator hardware precision matrix multiplication
Source: Pytorch_Blog | 阅读原文

[摘要]
揭示加速器GEMM引擎中累加器（accumulator）的精度限制及其对模型精度的影响，提出量化评估方法以优化硬件设计与自定义内核实现。

Accelerating Mamba2 with Kernel Fusion 87

Tags: Mamba-2 State-Space Model Triton Kernel Fusion Performance Optimization
Source: Pytorch_Blog | 阅读原文

[摘要]
通过将Mamba-2 SSD模块的五个核心核函数融合为单一Triton内核，实现1.50x–2.51x的推理加速，显著降低启动开销与冗余内存操作。