AI & ML 2026-2-8
近期研究揭示部分矩阵乘法引擎存在精度问题,引发对计算可靠性的关注;同时,通过核融合技术显著提升Mamba2加速性能,推动高效序列建模发展。
Some Matrix Multiplication Engines Are Not As Accurate As We Thought 87
Tags:
GEMMTensor CoresFP8accumulatorhardware precisionmatrix multiplicationSource:
Pytorch_Blog| 阅读原文
[摘要]
揭示加速器GEMM引擎中累加器(accumulator)的精度限制及其对模型精度的影响,提出量化评估方法以优化硬件设计与自定义内核实现。
Accelerating Mamba2 with Kernel Fusion 87
Tags:
Mamba-2State-Space ModelTritonKernel FusionPerformance OptimizationSource:
Pytorch_Blog| 阅读原文
[摘要]
通过将Mamba-2 SSD模块的五个核心核函数融合为单一Triton内核,实现1.50x–2.51x的推理加速,显著降低启动开销与冗余内存操作。