2026-06-03
GateKD提出置信度门控闭环蒸馏框架,通过动态教师监督、隐藏状态对齐和注意力过滤,提升小模型多步推理能力,在逻辑和符号推理任务上超越传统蒸馏方法。 提出ToMAP,通过心智理论模块增强LLM说服者的对手意识与动态推理,仅3B参数即超越GPT-4o,相对提升39.4%,论证更有效且多样化。 提出SchemaForge框架,通过对异构知识图谱进行模式切片对齐与…
GateKD: Confidence-Gated Closed-Loop Distillation for Robust Reasoning 85
Tags:
模型蒸馏推理优化小模型大模型Source:
arXiv Computation and Language| 阅读原文
[摘要]
GateKD提出置信度门控闭环蒸馏框架,通过动态教师监督、隐藏状态对齐和注意力过滤,提升小模型多步推理能力,在逻辑和符号推理任务上超越传统蒸馏方法。
ToMAP: Training Opponent-Aware LLM Persuaders with Theory of Mind 85
Tags:
大模型心智理论推理优化强化学习Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出ToMAP,通过心智理论模块增强LLM说服者的对手意识与动态推理,仅3B参数即超越GPT-4o,相对提升39.4%,论证更有效且多样化。
From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs 85
Tags:
知识图谱自然语言处理查询生成模式对齐Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出SchemaForge框架,通过对异构知识图谱进行模式切片对齐与反事实验证,提升Text-to-SPARQL查询生成准确率,在多个基准上平均提升11.5个百分点。
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses 85
Tags:
搜索代理强化学习检索增强状态管理Source:
arXiv Computation and Language| 阅读原文
[摘要]
Harness-1 提出通过状态化搜索工具实现强化学习训练20B参数搜索代理,在八个检索基准上平均curated recall达0.730,超越开源子代理由11.4个点,接近前沿大模型。
HMPO: Hybrid Median-length Policy Optimization for Chain-of-Thought Compression 85
Tags:
推理优化大模型强化学习Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出HMPO,一种单阶段强化学习框架,通过自适应中位预算和余弦衰减奖励压缩CoT推理,在9B-122B模型上实现19%-46% token压缩且精度损失极小。
BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution 85
Tags:
大模型评测基准训练数据生成强化学习Source:
arXiv Computation and Language| 阅读原文
[摘要]
BenchEvolver 提出基于解演化的自动编程题生成框架,将饱和基准转化为高难度评测集,恢复模型区分度,并用于强化学习提升编码能力。
On the Limits of Token Reduction for Efficient Unified Vision Language Training 85
Tags:
大模型多模态训练优化推理优化Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究统一视觉语言模型训练中token减少加速的可行性,发现理解与生成任务对图像token依赖不对称,提出需协同感知加速策略。
An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models 85
Tags:
大模型推理评估思维链Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究发现大型推理模型存在显著的生产-评估差距:模型能近乎完美地生成正确答案,但在评估有琐碎推理缺陷但答案正确的数学题时,准确率低至48%,原因在于答案确认偏差。
Self-Revising Discovery Systems for Science: A Categorical Framework for Agentic Artificial Intelligence 85
Tags:
范畴论科学发现Agent系统材料科学Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出基于范畴论的自我修正科学发现框架,将科学发现形式化为表征体系的转换,并在材料科学中实例化以分离检索、搜索与发现过程。
BraveGuard: From Open-World Threats to Safer Computer-Use Agents 85
Tags:
AI安全智能体安全自适应防御Source:
arXiv Computation and Language| 阅读原文
[摘要]
BraveGuard提出面向计算机使用智能体的自适应安全防御框架,通过挖掘开放世界威胁和真实执行轨迹训练防护模型,在AgentHazard上准确率从38.79%提升至82.38%。
Bridging the 2D-3D Gap: A Hierarchical Semantic-Geometric Map for Vision Language Navigation 85
Tags:
视觉语言导航多模态空间推理零样本Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出层次语义几何地图(HSGM),将3D几何信息转化为VLM兼容表示,实现零样本视觉语言导航,在R2R-CE和RxR-CE上达到SOTA。
WAXAL-NET: Finetuned Edge ASR Across 19 African Languages 85
Tags:
语音识别边缘模型多语言非洲语言Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究验证微调边缘ASR模型在19种非洲语言上WER比大规模多语言基线降低26.9%,模型小3-40倍,并发布全部权重与代码。
Grokers: Bottom-Up Inductive Comprehension and Write-Time Intelligence over Typed Knowledge Graphs 85
Tags:
知识图谱推理优化缓存机制智能代理Source:
arXiv Computation and Language| 阅读原文
[摘要]
Grokers提出在写入时投入智能、自底向上归纳遍历依赖子图的架构,实现知识图谱持久理解,后续查询零额外LM成本,并证明多项形式化性质。
From Layers to Submodules: Rethinking Granularity in Replacement-Based LLM Compression 85
Tags:
大模型模型压缩推理优化Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出SubFit方法,在子模块级别非连续替换大模型组件,通过轻量残差旁路压缩,在10个LLM上超越基线,25%稀疏度保留84.6%下游精度。
Same Payload, Different Channel: Measuring Trust Asymmetry in Tool-Using Language Models 85
Tags:
AI安全大模型工具使用安全评测Source:
arXiv Computation and Language| 阅读原文
[摘要]
该研究提出 Safety Asymmetry Score (SAS),测量大模型在不同输入渠道(用户消息、工具元数据、输出)对恶意指令的脆弱性差异,发现 agent 模型对工具描述中的攻击更敏感,暴露了系统性安全盲点。
Unveiling the Entropy Dynamics of Chain-of-Thought Reasoning 85
Tags:
推理优化大模型测试时扩展早退策略Source:
arXiv Computation and Language| 阅读原文
[摘要]
发现思维链推理的熵动力学两阶段结构(探索不确定性和收敛置信),基于CUSUM变化点检测提出无训练早退与测试时扩展策略,显著提升推理效率与准确性。
MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills? 85
Tags:
智能体多模态学习技能蒸馏自我进化Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出MMG2Skill框架和MMG2Skill-Bench基准,使智能体从网络多模态指南中蒸馏可执行技能,并通过轨迹级根因反馈实现自我进化,在GUI控制等任务中性能提升+12.8到+25.3个百分点。
How to Correctly Report LLM-as-a-Judge Evaluations 85
Tags:
大模型评测基准统计方法Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出一种简单插件框架,校正LLM作为评估者的偏差,并提供统计原则下的置信区间,提升评估可靠性。
Scaling Agentic Capabilities via Grounded Interaction Synthesis 85
Tags:
智能体数据合成MCP开源模型Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出GAIS框架,通过两阶段机制自动合成多样化、高保真环境与复杂任务,显著提升智能体能力,在多个基准上超越基线,数据效率高且开源。
DFlare: Scaling Up Draft Capacity for Block Diffusion Speculative Decoding 85
Tags:
推理优化大模型推测解码开源模型Source:
arXiv Computation and Language| 阅读原文
[摘要]
DFlare提出层级融合机制扩展草案模型容量,在块扩散推测解码中实现最高5.5倍加速,较DFlash提升约10%,代码已开源。