Skip to content

AI & ML 2026-2-8

近期研究揭示部分矩阵乘法引擎存在精度问题,引发对计算可靠性的关注;同时,通过核融合技术显著提升Mamba2加速性能,推动高效序列建模发展。

Some Matrix Multiplication Engines Are Not As Accurate As We Thought 87

  • Tags: GEMM Tensor Cores FP8 accumulator hardware precision matrix multiplication

  • Source: Pytorch_Blog | 阅读原文

[摘要]
揭示加速器GEMM引擎中累加器(accumulator)的精度限制及其对模型精度的影响,提出量化评估方法以优化硬件设计与自定义内核实现。


Accelerating Mamba2 with Kernel Fusion 87

  • Tags: Mamba-2 State-Space Model Triton Kernel Fusion Performance Optimization

  • Source: Pytorch_Blog | 阅读原文

[摘要]
通过将Mamba-2 SSD模块的五个核心核函数融合为单一Triton内核,实现1.50x–2.51x的推理加速,显著降低启动开销与冗余内存操作。