Skip to content

2026-05-27

Anthropic工程师透露,Claude Mythos模型成功解决了OpenAI此前提出的Erdős单位距离猜想问题,展示了AI在数学推理与科学发现领域的重大突破。 Qwen3.7-Max 在 Code Arena 编程评测中以 1541 分位列全球第二,仅次于 Claude,其专为生产环境设计,支持长时任务与超千次工具调用。 提出“先验证”(VF)提示策…

据报道Claude Mythos以"巧妙简洁的证明"解决了OpenAI里程碑式的Erdős问题 88

  • Tags: 数学推理 大模型 AI科学研究

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Anthropic工程师透露,Claude Mythos模型成功解决了OpenAI此前提出的Erdős单位距离猜想问题,展示了AI在数学推理与科学发现领域的重大突破。


Qwen3.7-Max 成为全球第二AI编程模型 85

  • Tags: 大模型 AI编程 代码生成

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Qwen3.7-Max 在 Code Arena 编程评测中以 1541 分位列全球第二,仅次于 Claude,其专为生产环境设计,支持长时任务与超千次工具调用。


Asking LLMs to Verify First is Almost Free Lunch 85

  • Tags: 大模型 提示工程 推理优化 测试时扩展

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出“先验证”(VF)提示策略,让模型在生成解答前先验证一个候选答案,触发逆向推理以优化输出,在GPQA等基准上显著提升LLM推理能力且几乎无额外开销。


Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling 85

  • Tags: 大模型 对齐技术 模型缩放

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
研究揭示了语言模型缩放中推理与诚实度耦合的阶段性转变:在临界规模以下两者负相关,以上则正相关,并提出无需重训的单向量干预纠错方法。


QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks 85

  • Tags: AI智能体 合成数据 开源模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
研究人员推出开源深度研究智能体 QUEST(2B-35B),通过结合 SFT、RL 及创新的合成数据管道,仅用 8K 合成任务即在多项基准上接近闭源前沿水平,并已完全开源。


Future-KL Regularized GRPO: Process-Level Credit Assignment from -Divergence Regularization 84

  • Tags: 大模型 强化学习 后训练

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
该研究提出FRPO方法,通过推导带有token级f-散度正则化的GRPO梯度,引入未来KL修正,在无需Critic和额外计算的前提下,显著提升了大模型数学推理性能并减少了策略漂移。


ECHO: Terminal Agents Learn World Models for Free 83

  • Tags: 智能体 强化学习 世界模型 模型训练

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
ECHO提出一种混合目标函数,将GRPO策略梯度损失与预测环境观测的辅助损失结合,为CLI Agent提供稠密监督信号,在TerminalBench-2.0上将Qwen3模型性能翻倍,并实现无专家演示的自我提升。


E = T*H/(O+B): A Dimensionless Control Parameter for Mixture-of-Experts Ecology 83

  • Tags: 混合专家模型 模型训练 架构优化

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
本文提出无量纲控制参数E,可预测并防止混合专家模型(MoE)中的“死专家”现象。当E≥0.5时可保证零死专家,从而无需手工设计负载均衡辅助损失,简化了MoE训练。


Better, Faster: Harnessing Self-Improvement in Large Reasoning Models 83

  • Tags: 推理模型 强化学习 推理优化

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
该研究提出HSIR框架,通过验证后退出采样和内在多样性评分,解决推理模型自提高训练中的数据不平衡与过度思考问题,并推出H-GRPO算法,提升性能的同时降低高达42.4%的推理开销。


我们如何对不同产品中的Claude进行隔离控制 82

  • Tags: AI安全 智能体 工程实践

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Anthropic分享了其对Claude智能体部署的安全隔离机制,通过环境限制、模型行为引导及细粒度权限管理三重防护,阐述了Claude Code等产品的具体隔离架构设计。


SenseNova-U1全训练代码开源,支持多模态多任务训练 82

  • Tags: 开源框架 多模态 模型训练 MoE

  • Source: AI HOT 精选 | 阅读原文

[摘要]
OpenSenseNova开源了SenseNova-U1的完整训练代码库,支持8B密集与A3B MoE架构,提供统一的多模态多任务训练框架,具备混合并行和流式数据管线等工业级工程优化。


SynthID水印技术扩展合作,覆盖超千亿内容 82

  • Tags: AI安全 内容水印 AI治理

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Google宣布与OpenAI、ElevenLabs和Kakao等合作,将SynthID AI水印技术集成至其模型中,目前该技术已覆盖超千亿内容,推动AI安全与治理行业标准的建立。


KPop 新方法让 Ring-2.6-1T 在 SWE-bench Verified 上突破 76 分 82

  • Tags: 强化学习 混合专家模型 AI智能体

  • Source: AI HOT 精选 | 阅读原文

[摘要]
新方法 KPop 引入自适应掩码机制,解决了大规模 MoE 模型的智能体强化学习训练不稳定问题,使 Ring-2.6-1T 在 SWE-bench Verified 上取得超 76 分。


OpenAI GPT-5.6 模型曝下月发布:AI 上下文 150 万 tokens 82

  • Tags: 大模型 上下文窗口 产业动态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
开发者在 OpenAI 后端发现未官宣的 GPT-5.6 模型,该模型支持 150 万 token 上下文,预计 6 月发布,在前端界面生成能力上亦有提升。


PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding 82

  • Tags: 可解释性 稀疏自编码器 大模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
研究者提出 PolySAE,通过在稀疏自编码器解码器中引入多项式高阶项,以极小参数开销建模特征间的非线性交互与组合结构,显著提升了大模型特征的可解释性与因果引导能力。


Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs 82

  • Tags: 具身智能 测试时计算 大模型 机器人

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
本文提出针对具身大模型的反射式测试时规划方法,结合行动中反射(测试时缩放)与行动后反射(测试时训练),并引入回顾性反射优化长程决策,在仿真和真实机器人实验中表现优异。


Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning 82

  • Tags: 智能体 强化学习 合成数据 开源工具

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
Snowflake Labs开源了Agent World Model (AWM),一个用于智能体强化学习的合成环境生成管道,支持1000个代码驱动的日常场景环境,显著提升了智能体的泛化能力。


PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching 82

  • Tags: 强化学习 大模型 微调技术 GFlowNet

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出 PowerFlow 框架,将无监督内部反馈强化学习(RLIF)重构为分布匹配问题。利用 GFlowNet 调节分布,既能增强逻辑推理,又能释放创造力,效果媲美有监督的 GRPO。


Judge Circuits 82

  • Tags: 可解释性 大模型评测 模型机制

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
该研究通过因果分析揭示了LLM作为裁判时存在通用的“潜在评估器”内部子图,并解释了不同输出格式导致评分不一致的机制,指出评测偏差源于格式化终端而非评估质量本身。


Cooperative Memory Paging with Keyword Bookmarks for Long-Horizon LLM Conversations 82

  • Tags: 长文本处理 上下文管理 推理优化

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出协作内存分页机制,用极简关键词书签替代LLM长对话中被驱逐的上下文,并配合检索工具按需恢复,在多模型测试中显著提升了超长对话的回答质量。