2026-06-04
英伟达发布Cosmos 3全模态世界模型,采用统一混合Transformer架构,支持多模态联合生成与理解,开源代码、权重及数据集,为具身智能提供核心底座。 LEAP是一个智能体框架,让通用大模型在形式化定理证明上达到SOTA,在2025年Putnam竞赛中解决全部12题,并将通用LLM的证明率从10%提升至70%,超越专业IMO系统。 论文揭示基于AI智能…
Cosmos 3: Omnimodal World Models for Physical AI 92
Tags:
全模态世界模型具身智能开源模型Source:
arXiv Machine Learning| 阅读原文
[摘要]
英伟达发布Cosmos 3全模态世界模型,采用统一混合Transformer架构,支持多模态联合生成与理解,开源代码、权重及数据集,为具身智能提供核心底座。
LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks 90
Tags:
智能体大模型研究突破AI推理Source:
arXiv Artificial Intelligence| 阅读原文
[摘要]
LEAP是一个智能体框架,让通用大模型在形式化定理证明上达到SOTA,在2025年Putnam竞赛中解决全部12题,并将通用LLM的证明率从10%提升至70%,超越专业IMO系统。
AI Agents Enable Adaptive Computer Worms 88
Tags:
AI安全智能体网络安全大模型风险Source:
arXiv Machine Learning| 阅读原文
[摘要]
论文揭示基于AI智能体的自适应计算机蠕虫,利用被控设备运行开源大模型动态生成攻击策略,突破传统防御与中心化安全限制。
消息称 DeepSeek 首轮融资拟筹集 500 亿元,腾讯、宁德时代等参投 85
Tags:
公司动态融资大模型产业生态Source:
AI HOT 精选| 阅读原文
[摘要]
DeepSeek 计划首轮融资500亿元,腾讯、宁德时代等参投,估值或达4000亿元,凸显中国AI大模型产业资本热潮与全链条布局。
Beyond Encoder Accumulation: Measuring Encoder Roles in Multi-Encoder VLMs 85
Tags:
大模型多模态模型研究推理优化Source:
arXiv Artificial Intelligence| 阅读原文
[摘要]
论文通过大规模实验重新训练多编码器视觉语言模型子集,提出Capacity-Necessity分解和pre-projector秩分析,揭示最佳编码器组合原则,对多模态大模型设计有重要指导意义。
NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation 85
Tags:
模型发布自动驾驶仿真世界模型Source:
arXiv Artificial Intelligence| 阅读原文
[摘要]
英伟达发布OmniDreams,基于Cosmos扩散模型的实时生成式世界模型,用于自动驾驶闭环仿真,可生成极端天气等复杂场景,参数量仅为对比模型的1/5。
TRAP: Hijacking VLA CoT-Reasoning via Adversarial Patches 85
Tags:
AI安全智能体对抗攻击机器人Source:
arXiv Artificial Intelligence| 阅读原文
[摘要]
研究揭示VLA模型CoT推理存在安全漏洞,攻击者可通过对抗补丁劫持机器人行为,引发安全担忧。
When Should LLMs Be Less Specific? Selective Abstraction for Reliable Long-Form Text Generation 85
Tags:
研究进展推理优化AI安全Source:
arXiv Machine Learning| 阅读原文
[摘要]
提出选择性抽象框架,让LLM在长文本生成中通过降低不确定内容的细节来提升准确性,实验显示风险-覆盖曲线下面积提升27.73%。
Reading the Finetuning Prior: Verbatim Content Recovery via Contrastive Decoding Diffing 85
Tags:
模型透明AI安全研究发布ARXIV研究Source:
arXiv Machine Learning| 阅读原文
[摘要]
论文提出 CDD 模型差异方法,仅利用输出层分布即可恢复微调模型植入的精确事实,比白盒方法更快更准,显著提升 AI 透明度和可审计性。
WaterSIC: Information-Theoretically (Near) Optimal Linear Layer Quantization 85
Tags:
模型压缩量化LLM推理优化Source:
arXiv Machine Learning| 阅读原文
[摘要]
提出WaterSIC线性层量化算法,理论接近信息论最优,在Llama和Qwen系列上达SOTA。
Finding Kissing Numbers with Game-theoretic Reinforcement Learning 85
Tags:
AI研究强化学习数学发现Source:
arXiv Machine Learning| 阅读原文
[摘要]
用博弈强化学习重新表述亲吻数问题,训练PackingStar系统发现新几何结构,改进15个长期未解边界,首次实现Fischer群Fi22的显式球面码,展示了AI在希尔伯特级问题上的突破。
RogueMerge: Robust and Unified Attacks against LLM Model Merging 85
Tags:
大模型安全模型合并对抗攻击Source:
arXiv Machine Learning| 阅读原文
[摘要]
提出RogueMerge框架,针对大模型合并中的任务向量供应链攻击,通过联合优化与分布鲁棒优化实现跨设置、抗防御的稳健统一攻击。
Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation 85
Tags:
大模型推荐系统强化学习工业落地Source:
arXiv Computation and Language| 阅读原文
[摘要]
快手提出Taiji框架,通过逆向推理生成高质量CoT数据及帕累托最优策略优化平衡语义与推荐奖励,成功部署于广告平台服务超4亿日活用户。
A Primer in Post-Training Reasoning Data: What We Know About How It Works 85
Tags:
后训练推理数据大模型综述Source:
arXiv Computation and Language| 阅读原文
[摘要]
首篇系统综述后训练推理数据的论文,涵盖数据对象、效用、构建和扩展方法。
Geometric Latent Reasoning Induces Shorter Generations in LLMs 85
Tags:
大模型推理优化潜在空间推理Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出几何潜在推理方法,用连续潜在步骤替代早期显式推理,使LLM生成更短且准确。
Don't Read Everything: A Curvature-Conditioned Query for Linear Attention 85
Tags:
注意力机制推理优化长上下文大模型Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出曲率条件查询(CCQ)机制,通过读时查询收缩改进线性注意力,在多种任务上提升性能,且与多种骨干兼容。
Understanding LLM Behavior in Multi-Target Cross-Lingual Summarization 85
Tags:
大模型跨语言摘要推理优化模型分析Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出多目标跨语言摘要基准MEA与层分析框架,揭示LLM的翻译和摘要行为在后期层联合涌现,并设计推理时激活引导方法提升质量。
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning 85
Tags:
多模态推理优化大模型空间推理Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出自适应测试时视觉想象框架AVIC/AVIC-R,通过GRPO学习何时及多少想象,在空间推理任务中超越GPT-4o,显著提升效率与准确性。
MiCU: End-to-End Smart Home Command Understanding with Large Language Model 85
Tags:
大模型智能家居推理优化强化学习Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出MiCU,面向智能家居命令理解的领域LLM,采用课程学习、强化学习和token压缩技术,部署于小米Home app显著提升准确率。
Revise, Don't Freeze: Sampler-Matched Training for Self-Correcting Masked Diffusion Language Models 85
Tags:
掩码扩散模型训练方法推理优化大模型Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出D3IM采样器与SCOPE后训练方法,解决掩码扩散语言模型的修正能力不足和preservation bias问题,在LLaDA-8B上数学与代码任务提升显著。