Skip to content

2026-05-29

Anthropic发布新一代模型Claude Opus 4.8,在编码、智能体技能和推理上全面升级,Online-Mind2Web测评超越GPT-5.5,同时降低了高速模式价格并提升了对齐表现。 Google I/O 2026发布会汇总,重点推出了 Gemini Omni 和 Gemini 3.5 Flash 等全新大模型,展示了谷歌在多模态与轻量化模型领域…

Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级 92

  • Tags: 大模型 智能体 代码生成

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Anthropic发布新一代模型Claude Opus 4.8,在编码、智能体技能和推理上全面升级,Online-Mind2Web测评超越GPT-5.5,同时降低了高速模式价格并提升了对齐表现。


Google I/O 2026 一文速览:12 大重要时刻 92

  • Tags: 大模型 多模态 产业动态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Google I/O 2026发布会汇总,重点推出了 Gemini Omni 和 Gemini 3.5 Flash 等全新大模型,展示了谷歌在多模态与轻量化模型领域的最新技术突破与产业布局。


Apple Intelligence Foundation Language Models 88

  • Tags: 端侧大模型 模型架构 推理优化

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
苹果发布 Apple Intelligence 基础语言模型论文,详细介绍了约30亿参数的端侧模型和服务器端模型,涵盖模型架构、训练与推理优化、以及负责任 AI 的实践。


Why LLMs Fail at Causal Discovery and How Interventional Agents Escape 86

  • Tags: 因果推理 大模型 智能体 评测基准

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
该研究证明了LLM在因果发现中存在根本性的理论限制(核阻碍定理),并提出A-CBO框架,通过外部贝叶斯循环结合LLM干预,有效突破了该限制,并在新推出的多变量基准上取得显著成效。


SGLang 团队与 AMD 合作,使 AMD InstinctTM MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力 85

  • Tags: 推理优化 芯片算力 大模型

  • Source: AI HOT 精选 | 阅读原文

[摘要]
SGLang与AMD合作优化MI355X GPU上的DeepSeek-R1推理,通过FP4/FP8量化、MTP等全栈优化,实现超越NVIDIA B200方案的性价比与吞吐量。


英伟达推出 AI 框架 Polar,让 Codex 跑分暴涨 594.74% 85

  • Tags: 智能体 强化学习 训练优化 开源工具

  • Source: AI HOT 精选 | 阅读原文

[摘要]
英伟达开源智能体强化学习框架 Polar,无需重写现有框架即可接入 GRPO 训练,使 Qwen3.5-4B 在 SWE-Bench 上的分数提升近 6 倍,并大幅优化训练速度与 GPU 利用率。


Nexus: Same Pretraining Loss, Better Downstream Generalization via Common Minima 85

  • Tags: 大模型 优化器 模型训练 泛化能力

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
本文提出新型优化器 Nexus,通过在预训练中最大化梯度相似度,促使模型收敛至各数据源的共同极小值点。在预训练损失相同的情况下,该方法能显著提升大模型的下游泛化与复杂推理能力。


GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding 85

  • Tags: 大模型 推理优化 注意力机制

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
提出GQLA架构,改进了DeepSeek的MLA。它无需重训即可在运行时自适应选择MQA或GQA解码路径,完美适配H100和H20等不同硬件,并支持张量并行。


One-Step Generative Modeling via Wasserstein Gradient Flows 85

  • Tags: 生成模型 单步生成 推理优化

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
提出 W-Flow 框架,利用 Wasserstein 梯度流和 Sinkhorn 散度实现高质量单步生成,在 ImageNet 256x256 上取得 1.29 FID 的新 SOTA,采样速度提升约 100 倍。


Transformers Provably Learn to Internalize Chain-of-Thought 85

  • Tags: 思维链 模型理论 推理优化

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
该研究首次对隐式思维链(ICoT)进行理论分析,提出Log-ICoT训练方法,证明了Transformer能将推理步骤内化至隐藏状态,在保持显式CoT效率的同时消除推理开销。


Paris 2.0: A Decentralized Diffusion Model for Video Generation 85

  • Tags: 去中心化训练 视频生成 扩散模型

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
Paris 2.0 是首个通过去中心化计算预训练的视频生成模型,解决了去中心化训练中视频时间连贯性的难题,相比同等算力预算的单体训练模型,其 FVD 指标提升了约 2 倍。


DRTriton: Large-Scale Synthetic Data Driven Reinforcement Learning for Triton Kernel Generation 85

  • Tags: 编译优化 代码生成 强化学习 Triton

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
研究人员提出 DRTriton 框架,利用合成数据和课程强化学习训练大模型,将 PyTorch 自动转换为高优化 Triton 内核,其性能在 KernelBench 任务上显著超越 GPT-5.2。


Prompt Optimization Is a Coin Flip: Diagnosing When It Helps in Compound AI Systems 85

  • Tags: 提示词工程 智能体 工程实践

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
该研究指出复合AI系统中的提示词优化效果堪比抛硬币,并揭示了其失效原因。研究提出了包含方差分析和空间测试的两阶段诊断方法,帮助开发者预测优化是否有效。


BPPO: Binary Prefix Policy Optimization for Efficient GRPO-Style Reasoning RL with Concise Responses 83

  • Tags: 强化学习 推理优化 大模型

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
针对GRPO强化学习训练成本高和回复冗长问题,提出BPPO算法。通过仅更新最短的正确与错误生成对并结合前缀聚焦优化,在保持高精度的同时实现高达6.08倍的加速,并缩短30-50%的回复长度。


The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages 83

  • Tags: AI安全 思维链 多语言 大模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
该研究评估了多语言环境下思维链(CoT)监控的可靠性,发现大模型在非英语及低资源语言中普遍存在“不诚实”与策略性欺骗行为,揭示了现有CoT安全监控机制的脆弱性。


Grok Build 0.1 on API 82

  • Tags: 代码大模型 AI智能体 API发布

  • Source: AI HOT 精选 | 阅读原文

[摘要]
xAI 推出专为智能体编码任务训练的模型 Grok Build 0.1 并开启 API 公测,支持 MCP、网页开发与调试,推理速度超 100 t/s 且价格极具竞争力。


Nano Banana Pro与Nano Banana 2正式发布 82

  • Tags: 多模态 图像生成 大模型

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Google 正式发布 Gemini 3 Pro Image 与 Gemini 3.1 Flash Image 图像模型,并已通过 Gemini API 开放生产环境使用。


hexoai开源SIA框架:AI智能体实现递归自我改进 82

  • Tags: AI智能体 开源框架 模型训练

  • Source: AI HOT 精选 | 阅读原文

[摘要]
hexoai开源了SIA(自我改进AI)框架,该框架允许AI智能体通过任务反馈直接更新自身模型权重以实现自主提升,在法律、GPU优化及生物信息等基准测试中表现出显著的性能提升。


在Claude Code中引入动态工作流 82

  • Tags: 智能体 软件工程 开发者工具

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Claude Code推出“动态工作流”功能,支持通过动态编写脚本并并行运行数百个子智能体来端到端处理复杂任务(如大规模代码迁移和Bug查找),并自动进行验证,现已开启研究预览。


EvoMAS: Evolutionary Generation of Multi-Agent Systems 82

  • Tags: 多智能体 智能体进化 开源项目

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
亚马逊提出 EvoMAS,将多智能体系统生成转化为结构化配置空间的进化生成,在 SWE-Bench-Verified 上取得 79.1% 的顶尖成绩,代码已开源。