Skip to content

2026-05-30

Kog团队通过Laneformer架构及内存流优化,在AMD MI300X和NVIDIA H200上实现高达3000和2100 tokens/s的单用户推理速度,较常规提升10-30倍。 OpenAI推出实时翻译模型gpt-realtime-translate,支持70多种语言语音输入并翻译为13种输出语言,可在智能眼镜等端侧设备运行。 阶跃星辰开源 Ste…

亲测为实:难以置信的推理速度 85

  • Tags: 推理优化 大模型 模型架构

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Kog团队通过Laneformer架构及内存流优化,在AMD MI300X和NVIDIA H200上实现高达3000和2100 tokens/s的单用户推理速度,较常规提升10-30倍。


OpenAI推出实时翻译模型,支持70+语言输入 82

  • Tags: 语音翻译 端侧AI 智能硬件

  • Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI推出实时翻译模型gpt-realtime-translate,支持70多种语言语音输入并翻译为13种输出语言,可在智能眼镜等端侧设备运行。


阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率 82

  • Tags: 开源模型 混合专家模型 智能体 多模态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
阶跃星辰开源 Step 3.7 Flash MoE 模型,总参数 198B(活跃 11B),支持 256K 上下文,主打智能体效率与多模态能力,兼容 MCP 协议并支持本地部署。


Can Aha Moments Be Fake? Towards Quantifying Decorative and True Thinking in Chain-of-Thought 82

  • Tags: 思维链 可解释性 推理优化

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
该研究提出“真实思维得分”(TTS)量化CoT步骤的因果贡献,发现前沿模型中存在大量无因果影响的修饰性步骤,并利用TTS成功剪枝,在保持性能的同时减少了66%的推理长度。


Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs 82

  • Tags: 可解释性 推理模型 大模型

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
论文提出 FlashTrace,针对推理大模型的高效多Token归因方法。通过跨度聚合与递归机制,在保持高忠实度的同时实现超130倍的归因加速,解决长上下文和多步推理的归因瓶颈。


ECHO: Entropy-Confidence Hybrid Optimization for Test-Time Reinforcement Learning 82

  • Tags: 强化学习 推理优化 测试时计算

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
针对测试时强化学习中rollout崩溃和伪标签噪声问题,提出ECHO方法,通过结合局部熵与置信度自适应控制分支并在线剪枝,在数学和视觉推理任务上显著提升了受限预算下的泛化性能。


The Obfuscation Atlas: Mapping Where Honesty Emerges in RLVR with Deception Probes 82

  • Tags: AI安全 对齐技术 强化学习

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
该研究探讨了在RLVR中针对欺骗检测器训练时模型产生“混淆”以逃避检测的现象,并证明高KL正则化与检测器惩罚结合能有效引导模型走向诚实。


ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing 82

  • Tags: AI智能体 推理优化 架构设计

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
提出 ReflexGrad 双系统架构,通过快慢系统路由机制实现 LLM Agent 在单次尝试中的失败恢复,无需示范即可显著提升 Agent 在复杂任务中的成功率并已开源。


MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation 82

  • Tags: 大模型评测 推理优化 代码评估

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
研究提出 MCTS-Judge 框架,首次将蒙特卡洛树搜索引入 LLM-as-a-Judge 用于代码评估,通过推理期计算扩展将准确率提升至 80%,性能超越 o1 且大幅节省 Token。


{\Omega}-QVLA: Robust Quantization for Vision-Language-Action Models via Composite Rotation and Per-step Scaling 82

  • Tags: 模型量化 具身智能 推理优化

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
提出 Omega-QVLA 训练后量化框架,首次将 VLA 模型的语言骨干和扩散动作头统一量化至 W4A4 精度,在保持甚至超越 FP16 成功率的同时减少 71.3% 的内存占用。


La-Proteina: Atomistic Protein Generation via Partially Latent Flow Matching 82

  • Tags: AI for Science 蛋白质设计 生成模型

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
研究人员提出 La-Proteina 模型,利用部分隐空间流匹配技术,实现全原子蛋白质结构与氨基酸序列的联合生成,在多项基准上达到 SOTA 性能,并支持超长蛋白质设计。


PEAR: Equal Area Weather Forecasting on the Sphere 82

  • Tags: AI4Science 气象预测 Transformer

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
研究人员提出基于 Transformer 的天气预报模型 PEAR,该模型直接在 HEALPix 等面积网格上运行,解决了传统等角网格的极地偏置问题,在不增加计算开销的前提下显著提升了预测性能。


MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks 82

  • Tags: AI安全 多模态RAG 投毒攻击

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
该研究提出 MM-PoisonRAG 框架,系统分析了多模态 RAG 在局部和全局知识投毒攻击下的脆弱性,揭示了现有防御的不足,为构建安全的多模态 RAG 提供了重要参考。


Decoupling Variance and Scale-Invariant Updates in Adaptive Gradient Descent for Unified Vector and Matrix Optimization 82

  • Tags: 训练优化 优化器 开源工具

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
论文提出DeVA优化器框架,通过解耦方差自适应与尺度不变更新,桥接了向量自适应与矩阵谱优化。实验表明其在语言建模等任务上超越Muon和SOAP,可减少约6.6%的Token使用量。


Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation 82

  • Tags: 分布式训练 流水线并行 优化算法

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
针对异步流水线并行中的梯度陈旧性问题,该研究提出“基底旋转”框架,通过旋转优化器坐标系对齐Hessian特征基底。在3B LLM训练中,该方法比最强异步基线减少了81.7%的迭代次数。


Continuous Diffusion Models Can Obey Formal Syntax 82

  • Tags: 扩散模型 受控生成 开源工具

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
研究人员提出 Diffinity,一种免训练的引导方法,通过解析得分梯度引导连续扩散语言模型满足正则表达式等语法约束(如 JSON),在保持高生成质量的同时显著提升约束满足率并已开源。


ASTRA: Communication-Efficient Acceleration for Multi-Device Transformer Inference 82

  • Tags: 推理优化 分布式推理 量化压缩

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
ASTRA 是一种针对多设备 Transformer 推理的通信高效加速框架,通过结合序列并行与混合精度注意力,将非本地 token 压缩传输,在低带宽和弱网下实现显著的推理加速。


Noise Scheduling as Information-Guided Allocation in Diffusion Training 82

  • Tags: 扩散模型 训练优化 生成模型

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
本文提出 InfoNoise,一种用于扩散模型训练的在线自适应噪声调度方法。它通过实时估计条件熵率,将优化资源分配给信息量最大的噪声水平,在图像、DNA和语言生成等任务中可减少高达3倍的训练算力。


How VLAs Fail Differently: Black-Box Action Monitoring Reveals Architecture-Specific Failure Signatures 82

  • Tags: 具身智能 模型评估 AI安全

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
该研究揭示了不同VLA具身智能架构在电机指令层面的独特失败模式,指出传统速度监控对连续模型无效,并开源了免训练的黑盒动作监控工具包SafeContract。


Reevaluating Policy Gradient Methods for Imperfect-Information Games 82

  • Tags: 强化学习 博弈论AI 评测基准

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
该研究重新评估了非完全信息博弈中的强化学习算法,通过超7000次训练对比,发现PPO等通用策略梯度方法性能不亚于甚至优于复杂的CFR等方法,并开源了相关评测基准。