Skip to content

科技新闻 2026-3-20

本期聚焦大模型推理评估、量子计算奠基者获图灵奖、首台通用计算机诞辰80周年,涵盖自研究代理、高效训练、新型数据格式与协议创新,展现AI与系统工程前沿突破。

EsoLang-Bench: Evaluating Genuine Reasoning in LLMs via Esoteric Languages 95

  • Tags: 大语言模型 代码生成 基准测试 推理能力 程序语言

  • Source: HackerNews | 阅读原文

[摘要]
EsoLang-Bench揭示大模型在极简编程语言上仅3.8%准确率,暴露出主流基准测试高分实为数据记忆而非真实推理能力。


2026 年图灵奖授予了两位量子信息理论的奠基人 95

  • Tags: 量子密码学 图灵奖 BB84协议 量子信息理论

  • Source: Solidot | 阅读原文

[摘要]
2026年图灵奖授予量子信息理论奠基人Bennett与Brassard,表彰其提出BB84协议,奠定量子密码学基础,实现物理安全密钥分发。


Eniac, the First General-Purpose Digital Computer, Turns 80 95

  • Tags: 计算机历史 电子计算机 计算机架构

  • Source: HackerNews | 阅读原文

[摘要]
ENIAC作为首台通用电子数字计算机,其电子化与可编程设计在1946年实现突破,奠定现代计算基础。


Show HN: Duplicate 3 layers in a 24B LLM, logical deduction .22→.76. No training 95

  • Tags: Transformer架构 模型推理 神经网络可解释性 无训练优化 认知电路

  • Source: HackerNews | 阅读原文

[摘要]
通过复制Transformer模型中特定3层的隐藏状态,无需训练即可显著提升逻辑推理能力(BBH逻辑推理从0.22→0.76),揭示了模型内部“认知电路”的存在与可利用性。


Scaling Karpathy's Autoresearch: What Happens When the Agent Gets a GPU Cluster 94

  • Tags: Autonomous AI Research Neural Architecture Search Heterogeneous GPU Optimization Reinforcement Learning in ML Claude AI

  • Source: HackerNews | 阅读原文

[摘要]
Claude Code autonomously optimized a GPT training pipeline across 16 heterogeneous GPUs, discovering width scaling and hardware-aware scheduling for 2.87% val_bpb improvement via parallel factorial experiments.


NanoGPT Slowrun: 10x Data Efficiency with Infinite Compute 94

  • Tags: 深度学习 模型集成 知识蒸馏 数据效率 架构创新

  • Source: HackerNews | 阅读原文

[摘要]
通过集成学习与链式知识蒸馏,NanoGPT Slowrun实现10倍数据效率提升,突破传统缩放定律,验证了模型多样性与压缩性对泛化能力的关键作用。


RX – a new random-access JSON alternative 94

  • Tags: 序列化 二进制格式 性能优化 JavaScript 内存管理

  • Source: HackerNews | 阅读原文

[摘要]
REXC 是一种二进制序列化格式,作为 JSON 的即插即用替代品,实现 18 倍更小体积、23,000 倍更快键值查找与近零堆内存占用,支持直接字节索引访问且兼容现有 JS 代码。


Autoresearch for SAT Solvers 93

  • Tags: AI代理 MaxSAT 自主学习 优化算法 机器学习求解器

  • Source: HackerNews | 阅读原文

[摘要]
一个无需人类干预的自主AI代理通过自我迭代学习,在2024年MaxSAT求解竞赛的229个实例上发现新策略并持续优化求解工具箱,实现性能突破。


I turned Markdown into a protocol for generative UI 92

  • Tags: AI Agent React Streaming Protocol Markdown Full-Stack AI Real-Time UI

  • Source: HackerNews | 阅读原文

[摘要]
基于Markdown的流式协议实现AI代理实时生成并执行React UI,支持代码、数据与文本的混合传输与即时渲染。


Noq: n0's new QUIC implementation in Rust 92

  • Tags: QUIC 多路径传输 NAT穿透 传输层 开源项目

  • Source: HackerNews | 阅读原文

[摘要]
noq是n0团队推出的全新通用QUIC实现,支持多路径传输与NAT穿透,基于iRoH项目演进而来,具备完整的QUIC多路径协议实现。