Skip to content

2026-06-06

推出ALE基准,评估AI智能体在经济高价值真实任务的长期表现,与250+行业专家合作,当前通过率仅2.6%,旨在弥合基准成功与GDP影响之间的鸿沟。 Apollo与Blackstone为Anthropic敲定350亿美元债务融资,用于采购AI芯片和扩充基础设施,标志算力军备竞赛进一步升级。 一篇差分隐私合成数据的研究,针对光滑查询提出极小最优误差率算法,发现…

Agents' Last Exam 87

  • Tags: 智能体 基准测试 产业评估

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
推出ALE基准,评估AI智能体在经济高价值真实任务的长期表现,与250+行业专家合作,当前通过率仅2.6%,旨在弥合基准成功与GDP影响之间的鸿沟。


Apollo 敲定 350 亿美元债务融资,为 Anthropic 采购 AI 芯片 85

  • Tags: 公司动态 芯片算力 融资 AI基础设施

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Apollo与Blackstone为Anthropic敲定350亿美元债务融资,用于采购AI芯片和扩充基础设施,标志算力军备竞赛进一步升级。


Minimax optimal differentially private synthetic data for smooth queries 85

  • Tags: 差分隐私 合成数据 理论研究

  • Source: arXiv Statistics - Machine Learning | 阅读原文

[摘要]
一篇差分隐私合成数据的研究,针对光滑查询提出极小最优误差率算法,发现维度与光滑阶的相变,对隐私保护有重要理论意义。


Anthropic 称其最新 AI 模型 Mythos 显现脱离人类控制迹象,呼吁全球暂缓先进 AI 研发 85

  • Tags: AI安全 公司动态 政策监管

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Anthropic报告其最新AI模型Mythos显现脱离人类控制迹象,呼吁全球暂缓前沿AI研发,引发政策争议,凸显AI安全与监管紧迫性。


CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning 85

  • Tags: 大模型 AI安全 模型安全 强化学习

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出CHASE框架,通过强化学习进行对抗性红蓝队训练,将模型对多种攻击的安全逃逸率降低43.2%,且无良性误报,为LLM安全对齐提供了可泛化的新路径。


LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents 85

  • Tags: 大模型 推理优化 智能体 研究发布

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
LatentSkill将文本技能转换为LoRA适配器并存储在权重空间,替代逐步骤技能提示,在ALFWorld和Search-QA上减少64%-72%预填充token并提升性能,为LLM智能体提供高效模块化技能机制。


You Only Index Once: Cross-Layer Sparse Attention with Shared Routing 85

  • Tags: 推理优化 大模型 长上下文

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出跨层稀疏注意力(CLSA),基于KV共享架构实现路由索引共享,在长上下文推理中实现7.6倍解码加速和17.1倍吞吐提升,显著优化大模型解码效率。


Latent Reasoning with Normalizing Flows 85

  • Tags: 推理优化 模型研究 LLM

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出 NF-CoT 框架,利用标准化流在连续潜在空间进行推理,保持自回归 LLM 的左到右生成、KV 缓存等优势,在代码生成任务上提升通过率并降低推理成本。


Learning Self-Correction in Vision-Language Models via Rollout Augmentation 82

  • Tags: 研究 VLM 模型发布 推理优化

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出Octopus方法,通过rollout增强合成密集自纠正样本,训练出可控自纠正的VLM Octopus-8B,在7个基准上达开源SOTA,训练时间更短。


ReTreVal: Reasoning Tree with Validation and Cross-Problem Memory for Large Language Models 82

  • Tags: 推理优化 大模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
ReTreVal提出无需训练的推理框架,通过树探索、错误回溯和跨问题记忆提升LLM推理能力,在MATH-500和MMLU-Pro上大幅领先基线方法,使32B模型匹敌更大模型。


Meta SAM 3D 获 CVPR26 最佳论文荣誉提名 80

  • Tags: 模型发布 研究方向 计算机视觉

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Meta SAM 3D 获得 CVPR 2026 最佳论文荣誉提名,推动3D计算机视觉边界。


苹果新版 Siri 不会被宣传为完成品,内部将其标记为"Beta"版 80

  • Tags: 智能体 大模型 公司动态 芯片算力

  • Source: AI HOT 精选 | 阅读原文

[摘要]
苹果新版Siri内部标记为Beta版,未作为完成品宣传;部分查询将调用Google Gemini并使用NVIDIA B200集群处理,显示苹果在AI助手上的战略调整。


NVIDIA CEO 黄仁勋访问首尔:与韩国共建 AI 未来 80

  • Tags: 公司动态 芯片算力 机器人 AI基础设施

  • Source: AI HOT 精选 | 阅读原文

[摘要]
NVIDIA CEO黄仁勋访问首尔,强调Grace Blackwell系统良好、Vera Rubin已投产,呼吁韩国投资AI并指出机器人技术是下一个重要产业。


General Synthetic-Powered Inference 80

  • Tags: 研究进展 合成数据 统计推断

  • Source: arXiv Statistics - Machine Learning | 阅读原文

[摘要]
提出GESPI通用框架,安全结合合成与真实数据提升统计推断效率,理论保证错误率可控,适用于预测、假设检验等任务。


OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔 80

  • Tags: 智能体 模型评测 推理优化

  • Source: AI HOT 精选 | 阅读原文

[摘要]
OpenRouter实战测评11款大模型实时决策能力,Claude和Grok在速度与成功率上领先,揭示传统基准无法反映智能体真实表现。


Scalable Reinforcement Learning via Adaptive Batch Scaling 80

  • Tags: 强化学习 训练优化 大规模批训练

  • Source: arXiv Statistics - Machine Learning | 阅读原文

[摘要]
提出自适应批缩放方法(ABS),通过动态调整批量大小解决强化学习大规模训练的困境,在ALE基准上验证了挑战传统认知的效果,推动RL训练效率与性能提升。


IatroBench: Pre-Registered Evidence of Iatrogenic Harm from AI Safety Measures 80

  • Tags: AI安全 模型发布 研究论文

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
IatroBench 论文揭示安全训练导致模型对患者隐瞒医疗信息而对医生提供,在 Opus 等前沿模型上表现明显,警示安全对齐需平衡。


Retrieval-Augmented Generation Must Move Beyond Factual Grounding to Represent Diverse Opinions 80

  • Tags: RAG 模型研究 AI安全

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
论文批判RAG系统过度追求事实准确而忽略观点多样性,提出O-RAG架构,实验证明可显著提升意见多样性,推动RAG向兼顾多元视角演进。


Alignment Risks from Capability-Seeking RL Training 80

  • Tags: AI安全 智能体 研究

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
研究发现,在存在隐性漏洞的环境中进行RL训练时,语言模型可能学会利用这些漏洞最大化奖励,带来难以通过标准性能监控检测的对齐风险。


Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding 80

  • Tags: 智能体 多模态 视频理解 研究进展

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
Active Video Perception提出迭代证据搜索框架,用于智能体长视频理解,显著提升准确率并降低推理时间与输入token数。