2026-05-30
Kog团队通过Laneformer架构及内存流优化,在AMD MI300X和NVIDIA H200上实现高达3000和2100 tokens/s的单用户推理速度,较常规提升10-30倍。 OpenAI推出实时翻译模型gpt-realtime-translate,支持70多种语言语音输入并翻译为13种输出语言,可在智能眼镜等端侧设备运行。 阶跃星辰开源 Ste…
亲测为实:难以置信的推理速度 85
Tags:
推理优化大模型模型架构Source:
AI HOT 精选| 阅读原文
[摘要]
Kog团队通过Laneformer架构及内存流优化,在AMD MI300X和NVIDIA H200上实现高达3000和2100 tokens/s的单用户推理速度,较常规提升10-30倍。
OpenAI推出实时翻译模型,支持70+语言输入 82
Tags:
语音翻译端侧AI智能硬件Source:
AI HOT 精选| 阅读原文
[摘要]
OpenAI推出实时翻译模型gpt-realtime-translate,支持70多种语言语音输入并翻译为13种输出语言,可在智能眼镜等端侧设备运行。
阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率 82
Tags:
开源模型混合专家模型智能体多模态Source:
AI HOT 精选| 阅读原文
[摘要]
阶跃星辰开源 Step 3.7 Flash MoE 模型,总参数 198B(活跃 11B),支持 256K 上下文,主打智能体效率与多模态能力,兼容 MCP 协议并支持本地部署。
Can Aha Moments Be Fake? Towards Quantifying Decorative and True Thinking in Chain-of-Thought 82
Tags:
思维链可解释性推理优化Source:
arXiv Machine Learning| 阅读原文
[摘要]
该研究提出“真实思维得分”(TTS)量化CoT步骤的因果贡献,发现前沿模型中存在大量无因果影响的修饰性步骤,并利用TTS成功剪枝,在保持性能的同时减少了66%的推理长度。
Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs 82
Tags:
可解释性推理模型大模型Source:
arXiv Machine Learning| 阅读原文
[摘要]
论文提出 FlashTrace,针对推理大模型的高效多Token归因方法。通过跨度聚合与递归机制,在保持高忠实度的同时实现超130倍的归因加速,解决长上下文和多步推理的归因瓶颈。
ECHO: Entropy-Confidence Hybrid Optimization for Test-Time Reinforcement Learning 82
Tags:
强化学习推理优化测试时计算Source:
arXiv Machine Learning| 阅读原文
[摘要]
针对测试时强化学习中rollout崩溃和伪标签噪声问题,提出ECHO方法,通过结合局部熵与置信度自适应控制分支并在线剪枝,在数学和视觉推理任务上显著提升了受限预算下的泛化性能。
The Obfuscation Atlas: Mapping Where Honesty Emerges in RLVR with Deception Probes 82
Tags:
AI安全对齐技术强化学习Source:
arXiv Machine Learning| 阅读原文
[摘要]
该研究探讨了在RLVR中针对欺骗检测器训练时模型产生“混淆”以逃避检测的现象,并证明高KL正则化与检测器惩罚结合能有效引导模型走向诚实。
ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing 82
Tags:
AI智能体推理优化架构设计Source:
arXiv Machine Learning| 阅读原文
[摘要]
提出 ReflexGrad 双系统架构,通过快慢系统路由机制实现 LLM Agent 在单次尝试中的失败恢复,无需示范即可显著提升 Agent 在复杂任务中的成功率并已开源。
MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation 82
Tags:
大模型评测推理优化代码评估Source:
arXiv Machine Learning| 阅读原文
[摘要]
研究提出 MCTS-Judge 框架,首次将蒙特卡洛树搜索引入 LLM-as-a-Judge 用于代码评估,通过推理期计算扩展将准确率提升至 80%,性能超越 o1 且大幅节省 Token。
{\Omega}-QVLA: Robust Quantization for Vision-Language-Action Models via Composite Rotation and Per-step Scaling 82
Tags:
模型量化具身智能推理优化Source:
arXiv Machine Learning| 阅读原文
[摘要]
提出 Omega-QVLA 训练后量化框架,首次将 VLA 模型的语言骨干和扩散动作头统一量化至 W4A4 精度,在保持甚至超越 FP16 成功率的同时减少 71.3% 的内存占用。
La-Proteina: Atomistic Protein Generation via Partially Latent Flow Matching 82
Tags:
AI for Science蛋白质设计生成模型Source:
arXiv Machine Learning| 阅读原文
[摘要]
研究人员提出 La-Proteina 模型,利用部分隐空间流匹配技术,实现全原子蛋白质结构与氨基酸序列的联合生成,在多项基准上达到 SOTA 性能,并支持超长蛋白质设计。
PEAR: Equal Area Weather Forecasting on the Sphere 82
Tags:
AI4Science气象预测TransformerSource:
arXiv Machine Learning| 阅读原文
[摘要]
研究人员提出基于 Transformer 的天气预报模型 PEAR,该模型直接在 HEALPix 等面积网格上运行,解决了传统等角网格的极地偏置问题,在不增加计算开销的前提下显著提升了预测性能。
MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks 82
Tags:
AI安全多模态RAG投毒攻击Source:
arXiv Machine Learning| 阅读原文
[摘要]
该研究提出 MM-PoisonRAG 框架,系统分析了多模态 RAG 在局部和全局知识投毒攻击下的脆弱性,揭示了现有防御的不足,为构建安全的多模态 RAG 提供了重要参考。
Decoupling Variance and Scale-Invariant Updates in Adaptive Gradient Descent for Unified Vector and Matrix Optimization 82
Tags:
训练优化优化器开源工具Source:
arXiv Machine Learning| 阅读原文
[摘要]
论文提出DeVA优化器框架,通过解耦方差自适应与尺度不变更新,桥接了向量自适应与矩阵谱优化。实验表明其在语言建模等任务上超越Muon和SOAP,可减少约6.6%的Token使用量。
Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation 82
Tags:
分布式训练流水线并行优化算法Source:
arXiv Machine Learning| 阅读原文
[摘要]
针对异步流水线并行中的梯度陈旧性问题,该研究提出“基底旋转”框架,通过旋转优化器坐标系对齐Hessian特征基底。在3B LLM训练中,该方法比最强异步基线减少了81.7%的迭代次数。
Continuous Diffusion Models Can Obey Formal Syntax 82
Tags:
扩散模型受控生成开源工具Source:
arXiv Machine Learning| 阅读原文
[摘要]
研究人员提出 Diffinity,一种免训练的引导方法,通过解析得分梯度引导连续扩散语言模型满足正则表达式等语法约束(如 JSON),在保持高生成质量的同时显著提升约束满足率并已开源。
ASTRA: Communication-Efficient Acceleration for Multi-Device Transformer Inference 82
Tags:
推理优化分布式推理量化压缩Source:
arXiv Machine Learning| 阅读原文
[摘要]
ASTRA 是一种针对多设备 Transformer 推理的通信高效加速框架,通过结合序列并行与混合精度注意力,将非本地 token 压缩传输,在低带宽和弱网下实现显著的推理加速。
Noise Scheduling as Information-Guided Allocation in Diffusion Training 82
Tags:
扩散模型训练优化生成模型Source:
arXiv Machine Learning| 阅读原文
[摘要]
本文提出 InfoNoise,一种用于扩散模型训练的在线自适应噪声调度方法。它通过实时估计条件熵率,将优化资源分配给信息量最大的噪声水平,在图像、DNA和语言生成等任务中可减少高达3倍的训练算力。
How VLAs Fail Differently: Black-Box Action Monitoring Reveals Architecture-Specific Failure Signatures 82
Tags:
具身智能模型评估AI安全Source:
arXiv Machine Learning| 阅读原文
[摘要]
该研究揭示了不同VLA具身智能架构在电机指令层面的独特失败模式,指出传统速度监控对连续模型无效,并开源了免训练的黑盒动作监控工具包SafeContract。
Reevaluating Policy Gradient Methods for Imperfect-Information Games 82
Tags:
强化学习博弈论AI评测基准Source:
arXiv Machine Learning| 阅读原文
[摘要]
该研究重新评估了非完全信息博弈中的强化学习算法,通过超7000次训练对比,发现PPO等通用策略梯度方法性能不亚于甚至优于复杂的CFR等方法,并开源了相关评测基准。