AI & ML 2026-3-19

本期聚焦AI底层优化与应用落地：新型注意力机制提升GPU训练效率，认知框架助力AGI进展评估，仿真到生产的机器人开发路径明晰，Nemotron 3 Nano 4B推动高效本地化AI部署。

Generalized Dot-Product Attention: Tackling Real-World Challenges in GPU Training Kernels 92

Tags: Attention Kernel Optimization Recommender Systems Production AI Flash Attention
Source: Pytorch_Blog | 阅读原文

[摘要]
提出广义点积注意力（GDPA）核设计，通过非softmax激活函数与生产级优化实现大批次、变长序列下的高效训练，显著提升推荐系统模型的推理与训练性能。

[摘要]
提出首个基于认知科学的AI通用智能评估框架，通过10项核心认知能力与三阶段评测协议，实现对AI系统通用智力水平的量化比较。

[摘要]
NVIDIA推出集成云-机器人工作流与开源VLA模型Isaac GR00T N，推动通用-专用机器人发展，通过仿真与真实数据融合加速智能体训练与部署。

Tags: Transformer Mamba Small Language Model Edge AI Hybrid Architecture On-device Inference
Source: HuggingFace | 阅读原文

[摘要]
Nemotron 3 Nano 4B 提出一种轻量级混合 Mamba-Transformer 架构，在 4B 参数规模下实现边缘部署的高效率与强指令遵循、工具调用及低幻觉能力，推动小型本地化 AI 模型的性能边界。