2026-06-07
NVIDIA提出PixelDiT,是直接在像素空间端到端学习的单阶段扩散Transformer,无需预训练自编码器压缩,入选CVPR2026最佳论文决赛,有望提升图像生成质量。 一项对11万+LLM评估论文的审计发现,多数论文评估的模型落后前沿约1.4个版本差距,且极少披露推理模式等关键配置,导致能力误传,研究呼吁强制披露框架。 SUPERNOVA框架利用自…
PixelDiT入选CVPR2026最佳论文决赛 82
Tags:
模型发布研究进展图像生成Source:
AI HOT 精选| 阅读原文
[摘要]
NVIDIA提出PixelDiT,是直接在像素空间端到端学习的单阶段扩散Transformer,无需预训练自编码器压缩,入选CVPR2026最佳论文决赛,有望提升图像生成质量。
Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation 80
Tags:
研究AI评估学术诚信评估方法Source:
arXiv Computation and Language| 阅读原文
[摘要]
一项对11万+LLM评估论文的审计发现,多数论文评估的模型落后前沿约1.4个版本差距,且极少披露推理模式等关键配置,导致能力误传,研究呼吁强制披露框架。
SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions 80
Tags:
大模型推理优化强化学习模型发布Source:
arXiv Computation and Language| 阅读原文
[摘要]
SUPERNOVA框架利用自然指令数据集和强化学习可验证奖励(RLVR)训练,显著提升大模型通用推理能力,在复杂推理基准上取得64.4%相对提升,且泛化到更大模型。
YouZhi: Towards High-Concurrency Financial LLMs via Adaptive GQA-to-MLA Transition 80
Tags:
大模型推理优化金融AI芯片算力Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出YouZhi-LLM,通过层自适应GQA-to-MLA转换压缩KV缓存,金融任务并发提升2倍以上,在华为昇腾上验证,为高吞吐金融推理提供新范式。
AdaPLD: Adaptive Retrieval and Reuse for Efficient Model-Free Speculative Decoding 80
Tags:
推理优化模型部署大模型Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出AdaPLD方法,通过自适应检索和重用来改善无模型投机解码,实现最高3.1倍解码加速,提升LLM推理效率。
EDIT: Evidence-Diagnosed Intervention Training for Rule-Faithful LLM Grading 80
Tags:
大模型训练方法推理优化研究发布Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出EDIT框架,通过内部状态诊断定位推理错误并只修正局部步骤,结合信念引导强化学习,显著提升LLM在真实评分任务中遵循规则的能力。
UNIVID: Unified Vision-Language Model for Video Moderation 80
Tags:
模型发布多模态AI安全内容审核Source:
arXiv Computation and Language| 阅读原文
[摘要]
UNIVID提出统一视觉语言模型用于视频审核,生成可解释的标题,减少42.7%违规泄漏和37%过杀,替代数千个模型,显著节省计算资源。
Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges 80
Tags:
大模型模型评测AI安全Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究揭示LLM作为评判者在与用户交互后易被引导推翻初始判断,导致评估结果偏移、排名变动及与人类偏好不一致,提出评估鲁棒性分数(ERS)量化这一风险。
Self-Augmenting Retrieval for Diffusion Language Models 80
Tags:
研究RAG扩散模型推理优化Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出 SARDI 框架,利用离散扩散语言模型去噪时低置信度 token 进行前瞻检索,无需训练且与检索器无关,在多跳 QA 上以更高吞吐量超越现有无训练方法。
OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation 80
Tags:
训练方法强化学习大模型Source:
arXiv Computation and Language| 阅读原文
[摘要]
OrderGrad提出一种优化顺序统计量目标的策略梯度估计方法,可处理风险规避、鲁棒性等需求,在LLM后训练等任务有潜力,为强化学习提供统一框架。
USAD 2.0: Scaling Representation Distillation for Universal Audio Understanding 80
Tags:
音频理解模型发布表征蒸馏Source:
arXiv Computation and Language| 阅读原文
[摘要]
USAD 2.0通过领域感知蒸馏与监督蒸馏,将通用音频编码器扩展到音乐域并缩放至10亿参数,在探测和LLM评估中达到领先性能。
DocHop-QA: Towards Multi-Hop Reasoning over Multimodal Document Collections 80
Tags:
数据集多模态科学QA基准测试Source:
arXiv Computation and Language| 阅读原文
[摘要]
DocHop-QA 是一个多文档、多模态科学问答基准,包含 11,379 个实例,要求模型综合多篇 PubMed 文章的文本、表格与布局信息进行跨文档推理,实验表明当前模型在此任务上表现困难,为复杂科学问答研究提供了严格测试平台。
Seeing is Believing? Evaluating Vision-Language Model Susceptibility in Agent-to-Agent Multimodal Persuasion 80
Tags:
AI安全多模态智能体模型评估Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究评估多模态agent间说服对VLM的影响,发现多模态输入可绕过安全防御,易感性因领域和格式而异,为构建鲁棒对齐的VLM提供基础。
Ask Only When Needed: Proactive Retrieval from Memory and Skills for Experience-Driven Lifelong Agents 80
Tags:
智能体主动检索终身学习Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出ProactAgent主动检索框架,面向终身学习智能体,何时及检索什么作为策略行动,成功率最高提升32%,交互轮次减少33%。
MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery 80
Tags:
研究进展多智能体自动机器学习LLM智能体Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出MLEvolve自我进化多智能体框架,实现端到端机器学习算法自动发现,在MLE-Bench和数学算法优化任务上取得SOTA,展示了跨领域泛化能力。
Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts 80
Tags:
智能体推理优化模型优化AI研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出RHO方法,让AI智能体通过自我偏好和轨迹回滚自动优化工具与流程,无需人工标注,在SWE-Bench Pro上从59%提升至78%,显著增强长时任务表现。
CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives 80
Tags:
大模型AI安全模型评估价值对齐Source:
arXiv Computation and Language| 阅读原文
[摘要]
新基准CLASH评估大模型在高风险困境中的价值判断,发现GPT-5等强模型在矛盾决策中准确率低,且数学策略不适用于价值推理,揭示AI安全与价值对齐新挑战。
Arena 发布真实世界 AI 智能体排行榜 Agent Arena 78
Tags:
智能体评测大模型Source:
AI HOT 精选| 阅读原文
[摘要]
Arena发布基于真实用户任务的智能体排行榜Agent Arena,评估模型在编程、文档分析等真实工作中的表现,基于30万+任务,对AI智能体能力评估有重要参考。
Diffusion Models Observe Only Gradients: A Geometric Perspective on Score Matching Errors 78
Tags:
扩散模型理论研究Source:
arXiv Statistics - Machine Learning| 阅读原文
[摘要]
该研究从几何角度揭示L2得分匹配误差并非扩散模型分布质量的合适度量,提出新的分解与上界,对改进模型训练与评估有理论指导意义。
Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning 78
Tags:
预训练表示学习模型研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
新研究提出结合JEPA潜在空间预测与MLM的混合预训练目标,在GLUE基准上产生更均匀、语义更丰富的嵌入,虽准确率持平但显著改善了表征几何质量。