Skip to content

2026-06-04

英伟达发布Cosmos 3全模态世界模型,采用统一混合Transformer架构,支持多模态联合生成与理解,开源代码、权重及数据集,为具身智能提供核心底座。 LEAP是一个智能体框架,让通用大模型在形式化定理证明上达到SOTA,在2025年Putnam竞赛中解决全部12题,并将通用LLM的证明率从10%提升至70%,超越专业IMO系统。 论文揭示基于AI智能…

Cosmos 3: Omnimodal World Models for Physical AI 92

  • Tags: 全模态 世界模型 具身智能 开源模型

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
英伟达发布Cosmos 3全模态世界模型,采用统一混合Transformer架构,支持多模态联合生成与理解,开源代码、权重及数据集,为具身智能提供核心底座。


LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks 90

  • Tags: 智能体 大模型 研究突破 AI推理

  • Source: arXiv Artificial Intelligence | 阅读原文

[摘要]
LEAP是一个智能体框架,让通用大模型在形式化定理证明上达到SOTA,在2025年Putnam竞赛中解决全部12题,并将通用LLM的证明率从10%提升至70%,超越专业IMO系统。


AI Agents Enable Adaptive Computer Worms 88

  • Tags: AI安全 智能体 网络安全 大模型风险

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
论文揭示基于AI智能体的自适应计算机蠕虫,利用被控设备运行开源大模型动态生成攻击策略,突破传统防御与中心化安全限制。


消息称 DeepSeek 首轮融资拟筹集 500 亿元,腾讯、宁德时代等参投 85

  • Tags: 公司动态 融资 大模型 产业生态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
DeepSeek 计划首轮融资500亿元,腾讯、宁德时代等参投,估值或达4000亿元,凸显中国AI大模型产业资本热潮与全链条布局。


Beyond Encoder Accumulation: Measuring Encoder Roles in Multi-Encoder VLMs 85

  • Tags: 大模型 多模态 模型研究 推理优化

  • Source: arXiv Artificial Intelligence | 阅读原文

[摘要]
论文通过大规模实验重新训练多编码器视觉语言模型子集,提出Capacity-Necessity分解和pre-projector秩分析,揭示最佳编码器组合原则,对多模态大模型设计有重要指导意义。


NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation 85

  • Tags: 模型发布 自动驾驶 仿真 世界模型

  • Source: arXiv Artificial Intelligence | 阅读原文

[摘要]
英伟达发布OmniDreams,基于Cosmos扩散模型的实时生成式世界模型,用于自动驾驶闭环仿真,可生成极端天气等复杂场景,参数量仅为对比模型的1/5。


TRAP: Hijacking VLA CoT-Reasoning via Adversarial Patches 85

  • Tags: AI安全 智能体 对抗攻击 机器人

  • Source: arXiv Artificial Intelligence | 阅读原文

[摘要]
研究揭示VLA模型CoT推理存在安全漏洞,攻击者可通过对抗补丁劫持机器人行为,引发安全担忧。


When Should LLMs Be Less Specific? Selective Abstraction for Reliable Long-Form Text Generation 85

  • Tags: 研究进展 推理优化 AI安全

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
提出选择性抽象框架,让LLM在长文本生成中通过降低不确定内容的细节来提升准确性,实验显示风险-覆盖曲线下面积提升27.73%。


Reading the Finetuning Prior: Verbatim Content Recovery via Contrastive Decoding Diffing 85

  • Tags: 模型透明 AI安全 研究发布 ARXIV研究

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
论文提出 CDD 模型差异方法,仅利用输出层分布即可恢复微调模型植入的精确事实,比白盒方法更快更准,显著提升 AI 透明度和可审计性。


WaterSIC: Information-Theoretically (Near) Optimal Linear Layer Quantization 85

  • Tags: 模型压缩 量化 LLM 推理优化

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
提出WaterSIC线性层量化算法,理论接近信息论最优,在Llama和Qwen系列上达SOTA。


Finding Kissing Numbers with Game-theoretic Reinforcement Learning 85

  • Tags: AI研究 强化学习 数学发现

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
用博弈强化学习重新表述亲吻数问题,训练PackingStar系统发现新几何结构,改进15个长期未解边界,首次实现Fischer群Fi22的显式球面码,展示了AI在希尔伯特级问题上的突破。


RogueMerge: Robust and Unified Attacks against LLM Model Merging 85

  • Tags: 大模型安全 模型合并 对抗攻击

  • Source: arXiv Machine Learning | 阅读原文

[摘要]
提出RogueMerge框架,针对大模型合并中的任务向量供应链攻击,通过联合优化与分布鲁棒优化实现跨设置、抗防御的稳健统一攻击。


Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation 85

  • Tags: 大模型 推荐系统 强化学习 工业落地

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
快手提出Taiji框架,通过逆向推理生成高质量CoT数据及帕累托最优策略优化平衡语义与推荐奖励,成功部署于广告平台服务超4亿日活用户。


A Primer in Post-Training Reasoning Data: What We Know About How It Works 85

  • Tags: 后训练 推理数据 大模型 综述

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
首篇系统综述后训练推理数据的论文,涵盖数据对象、效用、构建和扩展方法。


Geometric Latent Reasoning Induces Shorter Generations in LLMs 85

  • Tags: 大模型 推理优化 潜在空间推理

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出几何潜在推理方法,用连续潜在步骤替代早期显式推理,使LLM生成更短且准确。


Don't Read Everything: A Curvature-Conditioned Query for Linear Attention 85

  • Tags: 注意力机制 推理优化 长上下文 大模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出曲率条件查询(CCQ)机制,通过读时查询收缩改进线性注意力,在多种任务上提升性能,且与多种骨干兼容。


Understanding LLM Behavior in Multi-Target Cross-Lingual Summarization 85

  • Tags: 大模型 跨语言摘要 推理优化 模型分析

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出多目标跨语言摘要基准MEA与层分析框架,揭示LLM的翻译和摘要行为在后期层联合涌现,并设计推理时激活引导方法提升质量。


When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning 85

  • Tags: 多模态 推理优化 大模型 空间推理

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出自适应测试时视觉想象框架AVIC/AVIC-R,通过GRPO学习何时及多少想象,在空间推理任务中超越GPT-4o,显著提升效率与准确性。


MiCU: End-to-End Smart Home Command Understanding with Large Language Model 85

  • Tags: 大模型 智能家居 推理优化 强化学习

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出MiCU,面向智能家居命令理解的领域LLM,采用课程学习、强化学习和token压缩技术,部署于小米Home app显著提升准确率。


Revise, Don't Freeze: Sampler-Matched Training for Self-Correcting Masked Diffusion Language Models 85

  • Tags: 掩码扩散模型 训练方法 推理优化 大模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出D3IM采样器与SCOPE后训练方法,解决掩码扩散语言模型的修正能力不足和preservation bias问题,在LLaDA-8B上数学与代码任务提升显著。