2026-05-27

Anthropic工程师透露，Claude Mythos模型成功解决了OpenAI此前提出的Erdős单位距离猜想问题，展示了AI在数学推理与科学发现领域的重大突破。 Qwen3.7-Max 在 Code Arena 编程评测中以 1541 分位列全球第二，仅次于 Claude，其专为生产环境设计，支持长时任务与超千次工具调用。提出“先验证”（VF）提示策…

据报道Claude Mythos以"巧妙简洁的证明"解决了OpenAI里程碑式的Erdős问题 88

Tags: 数学推理 大模型 AI科学研究
Source: AI HOT 精选 | 阅读原文

[摘要]
Anthropic工程师透露，Claude Mythos模型成功解决了OpenAI此前提出的Erdős单位距离猜想问题，展示了AI在数学推理与科学发现领域的重大突破。

Qwen3.7-Max 成为全球第二AI编程模型 85

Tags: 大模型 AI编程 代码生成
Source: AI HOT 精选 | 阅读原文

[摘要]
Qwen3.7-Max 在 Code Arena 编程评测中以 1541 分位列全球第二，仅次于 Claude，其专为生产环境设计，支持长时任务与超千次工具调用。

Asking LLMs to Verify First is Almost Free Lunch 85

Tags: 大模型 提示工程 推理优化 测试时扩展
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出“先验证”（VF）提示策略，让模型在生成解答前先验证一个候选答案，触发逆向推理以优化输出，在GPQA等基准上显著提升LLM推理能力且几乎无额外开销。

Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling 85

Tags: 大模型 对齐技术 模型缩放
Source: arXiv Computation and Language | 阅读原文

[摘要]
研究揭示了语言模型缩放中推理与诚实度耦合的阶段性转变：在临界规模以下两者负相关，以上则正相关，并提出无需重训的单向量干预纠错方法。

QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks 85

Tags: AI智能体 合成数据 开源模型
Source: arXiv Computation and Language | 阅读原文

[摘要]
研究人员推出开源深度研究智能体 QUEST（2B-35B），通过结合 SFT、RL 及创新的合成数据管道，仅用 8K 合成任务即在多项基准上接近闭源前沿水平，并已完全开源。

Future-KL Regularized GRPO: Process-Level Credit Assignment from -Divergence Regularization 84

Tags: 大模型 强化学习 后训练
Source: arXiv Computation and Language | 阅读原文

[摘要]
该研究提出FRPO方法，通过推导带有token级f-散度正则化的GRPO梯度，引入未来KL修正，在无需Critic和额外计算的前提下，显著提升了大模型数学推理性能并减少了策略漂移。

ECHO: Terminal Agents Learn World Models for Free 83

Tags: 智能体 强化学习 世界模型 模型训练
Source: arXiv Computation and Language | 阅读原文

[摘要]
ECHO提出一种混合目标函数，将GRPO策略梯度损失与预测环境观测的辅助损失结合，为CLI Agent提供稠密监督信号，在TerminalBench-2.0上将Qwen3模型性能翻倍，并实现无专家演示的自我提升。

E = T*H/(O+B): A Dimensionless Control Parameter for Mixture-of-Experts Ecology 83

Tags: 混合专家模型 模型训练 架构优化
Source: arXiv Computation and Language | 阅读原文

[摘要]
本文提出无量纲控制参数E，可预测并防止混合专家模型（MoE）中的“死专家”现象。当E≥0.5时可保证零死专家，从而无需手工设计负载均衡辅助损失，简化了MoE训练。

Better, Faster: Harnessing Self-Improvement in Large Reasoning Models 83

Tags: 推理模型 强化学习 推理优化
Source: arXiv Computation and Language | 阅读原文

[摘要]
该研究提出HSIR框架，通过验证后退出采样和内在多样性评分，解决推理模型自提高训练中的数据不平衡与过度思考问题，并推出H-GRPO算法，提升性能的同时降低高达42.4%的推理开销。

我们如何对不同产品中的Claude进行隔离控制 82

Tags: AI安全 智能体 工程实践
Source: AI HOT 精选 | 阅读原文

[摘要]
Anthropic分享了其对Claude智能体部署的安全隔离机制，通过环境限制、模型行为引导及细粒度权限管理三重防护，阐述了Claude Code等产品的具体隔离架构设计。

SenseNova-U1全训练代码开源，支持多模态多任务训练 82

Tags: 开源框架 多模态 模型训练 MoE
Source: AI HOT 精选 | 阅读原文

[摘要]
OpenSenseNova开源了SenseNova-U1的完整训练代码库，支持8B密集与A3B MoE架构，提供统一的多模态多任务训练框架，具备混合并行和流式数据管线等工业级工程优化。

SynthID水印技术扩展合作，覆盖超千亿内容 82

Tags: AI安全 内容水印 AI治理
Source: AI HOT 精选 | 阅读原文

[摘要]
Google宣布与OpenAI、ElevenLabs和Kakao等合作，将SynthID AI水印技术集成至其模型中，目前该技术已覆盖超千亿内容，推动AI安全与治理行业标准的建立。

KPop 新方法让 Ring-2.6-1T 在 SWE-bench Verified 上突破 76 分 82

Tags: 强化学习 混合专家模型 AI智能体
Source: AI HOT 精选 | 阅读原文

[摘要]
新方法 KPop 引入自适应掩码机制，解决了大规模 MoE 模型的智能体强化学习训练不稳定问题，使 Ring-2.6-1T 在 SWE-bench Verified 上取得超 76 分。

OpenAI GPT-5.6 模型曝下月发布：AI 上下文 150 万 tokens 82

Tags: 大模型 上下文窗口 产业动态
Source: AI HOT 精选 | 阅读原文

[摘要]
开发者在 OpenAI 后端发现未官宣的 GPT-5.6 模型，该模型支持 150 万 token 上下文，预计 6 月发布，在前端界面生成能力上亦有提升。

PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding 82

Tags: 可解释性 稀疏自编码器 大模型
Source: arXiv Computation and Language | 阅读原文

[摘要]
研究者提出 PolySAE，通过在稀疏自编码器解码器中引入多项式高阶项，以极小参数开销建模特征间的非线性交互与组合结构，显著提升了大模型特征的可解释性与因果引导能力。

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs 82

Tags: 具身智能 测试时计算 大模型 机器人
Source: arXiv Computation and Language | 阅读原文

[摘要]
本文提出针对具身大模型的反射式测试时规划方法，结合行动中反射（测试时缩放）与行动后反射（测试时训练），并引入回顾性反射优化长程决策，在仿真和真实机器人实验中表现优异。

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning 82

Tags: 智能体 强化学习 合成数据 开源工具
Source: arXiv Computation and Language | 阅读原文

[摘要]
Snowflake Labs开源了Agent World Model (AWM)，一个用于智能体强化学习的合成环境生成管道，支持1000个代码驱动的日常场景环境，显著提升了智能体的泛化能力。

PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching 82

Tags: 强化学习 大模型 微调技术 GFlowNet
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出 PowerFlow 框架，将无监督内部反馈强化学习（RLIF）重构为分布匹配问题。利用 GFlowNet 调节分布，既能增强逻辑推理，又能释放创造力，效果媲美有监督的 GRPO。

Judge Circuits 82

Tags: 可解释性 大模型评测 模型机制
Source: arXiv Computation and Language | 阅读原文

[摘要]
该研究通过因果分析揭示了LLM作为裁判时存在通用的“潜在评估器”内部子图，并解释了不同输出格式导致评分不一致的机制，指出评测偏差源于格式化终端而非评估质量本身。

Cooperative Memory Paging with Keyword Bookmarks for Long-Horizon LLM Conversations 82

Tags: 长文本处理 上下文管理 推理优化
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出协作内存分页机制，用极简关键词书签替代LLM长对话中被驱逐的上下文，并配合检索工具按需恢复，在多模型测试中显著提升了超长对话的回答质量。

2026-05-27 ​

据报道Claude Mythos以"巧妙简洁的证明"解决了OpenAI里程碑式的Erdős问题 88 ​

Qwen3.7-Max 成为全球第二AI编程模型 85 ​

Asking LLMs to Verify First is Almost Free Lunch 85 ​

Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling 85 ​

QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks 85 ​

Future-KL Regularized GRPO: Process-Level Credit Assignment from -Divergence Regularization 84 ​

ECHO: Terminal Agents Learn World Models for Free 83 ​

E = T*H/(O+B): A Dimensionless Control Parameter for Mixture-of-Experts Ecology 83 ​

Better, Faster: Harnessing Self-Improvement in Large Reasoning Models 83 ​

我们如何对不同产品中的Claude进行隔离控制 82 ​

SenseNova-U1全训练代码开源，支持多模态多任务训练 82 ​

SynthID水印技术扩展合作，覆盖超千亿内容 82 ​

KPop 新方法让 Ring-2.6-1T 在 SWE-bench Verified 上突破 76 分 82 ​

OpenAI GPT-5.6 模型曝下月发布：AI 上下文 150 万 tokens 82 ​

PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding 82 ​

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs 82 ​

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning 82 ​

PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching 82 ​

Judge Circuits 82 ​

Cooperative Memory Paging with Keyword Bookmarks for Long-Horizon LLM Conversations 82 ​

2026-05-27

据报道Claude Mythos以"巧妙简洁的证明"解决了OpenAI里程碑式的Erdős问题 88

Qwen3.7-Max 成为全球第二AI编程模型 85

Asking LLMs to Verify First is Almost Free Lunch 85

Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling 85

QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks 85

Future-KL Regularized GRPO: Process-Level Credit Assignment from -Divergence Regularization 84

ECHO: Terminal Agents Learn World Models for Free 83

E = T*H/(O+B): A Dimensionless Control Parameter for Mixture-of-Experts Ecology 83

Better, Faster: Harnessing Self-Improvement in Large Reasoning Models 83

我们如何对不同产品中的Claude进行隔离控制 82

SenseNova-U1全训练代码开源，支持多模态多任务训练 82

SynthID水印技术扩展合作，覆盖超千亿内容 82

KPop 新方法让 Ring-2.6-1T 在 SWE-bench Verified 上突破 76 分 82

OpenAI GPT-5.6 模型曝下月发布：AI 上下文 150 万 tokens 82

PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding 82

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs 82

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning 82

PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching 82

Judge Circuits 82

Cooperative Memory Paging with Keyword Bookmarks for Long-Horizon LLM Conversations 82