AI 无涯日报 · 2026 年 6 月 5 日

无涯2026-06-052026-06-05

AI 无涯日报 · 2026 年 6 月 5 日

每日精选全球 AI 热点，5 分钟掌握行业动态。

模型发布/更新

1. Nex-N2-Pro 发布：基于 Qwen3.5 的 397B MoE 推理模型
来源：SiliconFlow

neolab 推出 Nex-N2-Pro，基于 Qwen3.5-397B-A17B，总参数 397B 的 MoE 推理模型，支持 262K 上下文与多模态（VLM），性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度，减少 30-50% 思考 token 且无性能折损，在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用，兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持，前两周免费使用。

2. NVIDIA Nemotron 3 Ultra：为长时间运行的智能体带来更快推理
来源：NVIDIA / LMSYS

NVIDIA 发布 Nemotron 3 Ultra 模型，专为长时间运行的 AI 智能体设计。该模型能够在多轮对话中保持上下文、调用工具、调用子智能体，并高效处理复杂工作流。随着多智能体协作导致模型 token 数量快速增长，Nemotron 3 Ultra 通过优化推理流程显著提升速度并降低计算成本，使长期运行的智能体任务更加可行。

3. Higgs Audio v3 TTS 端到端服务发布
来源：Boson AI / LMSYS

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数，基于 Qwen3-4B 骨干，支持 100 种语言，在零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感（20+种）、风格、韵律（语速/音高/停顿）及音效。模型支持流式合成，文本未完整时即可开始生成语音并保持一致性。

4. Nemotron 3.5 ASR：多语言流式语音识别
来源：NVIDIA

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型，单个检查点覆盖 40 种语言-地区。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器，缓存内部状态避免重复计算，实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本，无需后处理。通过注意力上下文大小可在推理时直接调节延迟-准确率权衡，无需重新训练。

5. Google Magenta RealTime 2 (MRT2)：实时音乐生成模型
来源：Google AI for Developers

Google AI for Developers 宣布推出开放权重的实时音乐模型 Magenta RealTime 2（MRT2）。该模型可通过 MIDI 键盘、实时文本提示甚至手势进行演奏。MRT2 在 MacBook 上原生运行，延迟低于 200ms，提供开放权重、开源推理引擎以及配套应用和插件套件。MRT2 把音乐生成从「后期制作」拉到了「实时演奏」。

产品发布/更新

6. ChatGPT 推出 Dreaming 记忆系统
来源：OpenAI / Sam Altman

ChatGPT 推出名为 Dreaming 的新记忆系统，能够更有效地记住用户偏好，并在跨对话场景中保持上下文的新鲜感和相关性，从而提升助手的个性化体验。ChatGPT 不再每轮对话都像失忆的金鱼，做长期助手的用户会明显感觉到不同。

7. NotebookLM 开放 Source Attribution 来源归属功能
来源：Google Gemini

NotebookLM 终于开放了 Source Attribution，能看到每个 artifact 背后的 prompt 和来源，还能直接迭代，对经常用做资料整理的重度用户是个实在的升级。无需再猜测创作物背后所用的确切公式（提示词 + 来源）。

8. Gemini for macOS：双 Command 一键分享当前窗口
来源：Google Gemini

使用适用于 macOS 的 Gemini 应用，只需同时按下两个 Command ⌘ 键，即可将当前活动窗口无缝附加到聊天中，无需手动截图或切换标签页。这个按双 Command 就分享当前窗口的功能，比手动截图快得多。

9. Replit Agent 一键开店：从想法到上线只需几分钟
来源：Replit

Replit 与 Shopify 合作，只需告诉 Replit Agent 你想卖什么，它会构建自定义店铺页面、创建 Shopify 商店，在 Shopify 中认领店铺、设置支付即可开业。Replit 把 Agent 从代码生成延伸到了实时开店，对电商创业者来说是真正的零门槛。

10. Codex 集成 iOS 应用循环开发能力
来源：OpenAI Developers

Build iOS Apps 插件让 Codex 可在应用内浏览器查看和测试你的 iOS 应用，打开 SwiftUI 预览，并无需离开 Codex 即可热重载编辑。对 iOS 开发者很实用，减少工具间反复横跳。

11. hf CLI 为编码智能体重塑输出格式
来源：Hugging Face

Hugging Face 重新设计 hf CLI，使其同时服务人类用户和编码智能体（Claude Code、Codex 等）。CLI 通过环境变量自动检测智能体驱动，输出紧凑无截断的 TSV 格式，避免 ANSI 和交互提示。Claude Code 约 4 万用户、近 4900 万次请求，使用 CLI 的智能体 token 消耗比不使用节省 2-6 倍。

12. OpenClaw 2026.6.1 上线：原生 Windows + Skill Workshop
来源：OpenClaw

OpenClaw 2026.6.1 带来原生 Windows 支持、Skill Workshop（自主学习型智能体技能工坊）、Workboard 编排，以及 MiniMax M3 模型支持。Windows 加入集群，无需 WSL。

行业动态

13. OpenRouter 11 款 LLM 决策模型大逃杀：Claude 和 Grok 胜
来源：OpenRouter

OpenRouter 让 11 个模型打了 30 局生存竞技，用总价 482 美元的推理花费测试在实时决策任务中的表现。实验发现传统静态 benchmark 排名无法反映模型在需要即时反应的智能体任务中的真实表现，Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出，而多项高分模型的实时调度能力未达预期。

14. DeepSeek 连续四周位居 OpenRouter token 份额第一
来源：OpenRouter

OpenRouter 作为风向标级的 API 聚合器，DeepSeek 连续四周 token 份额排行榜第一。这个数据比任何 benchmark 都实在，对还在犹豫选哪个模型的产品人来说是个明确的信号。

15. 微软 AI 负责人：Anthropic 模型太贵，正自研更便宜的替代模型
来源：Bloomberg

微软 AI 部门负责人表示，Anthropic 推出的模型成本过高，公司目前正在内部研发更廉价的替代模型，以降低成本。这番话是大厂向高价模型供应商发出的明确信号，Anthropic 的商业化压力又加了一层。

16. 台积电：难以跟上 AI 需求
来源：The Verge

全球最大芯片制造商台积电表示，通过美国本土生产满足客户需求可能需要”非常长的时间”，凸显 AI 需求带来的产能压力。TSMC 的产能警告不是 PR 话术，是真实的供需失衡，所有等着买 GPU 的 AI 公司都要做好长期作战准备。

17. Cloudflare：机器人流量首次超过人类，占比 57.5%
来源：Cloudflare Radar / SemiAnalysis

过去一周（5月28日至6月4日）全球所有 HTML 网页请求流量中，57.5% 来自机器人，仅 42.5% 来自真人浏览器。互联网流量主体已从人类浏览网页转向机器间通信和机器人抓取。这是 AI 时代的真正里程碑。

18. Anthropic 研究报告：AI 加速自我构建趋势
来源：Anthropic / Kim / Testing Catalog

Anthropic 研究院报告指出，AI 正加速 AI 开发：2021–2025 年间工程师人均季度代码量提升 8 倍，截至 2026 年 5 月超 80% 合并代码由 Claude 生成。SWE-bench 两年内从低个位数得分饱和；METR 测试显示 Claude Mythos Preview 可连续工作至少 16 小时。但 AI 自主设定目标的能力仍存显著差距。

19. OpenAI 首次承认递归自我改进的早期迹象
来源：OpenAI / Kim

OpenAI 在《智能时代的生物防御》行动计划中公开承认看到递归自我改进（RSI）的早期迹象：AI 开发本身正被 AI 加速。社会将需要找到塑造 AI 发展轨迹的方法，确保其服务于人类利益。

20. 联合国报告：2030 年 AI 数据中心水电消耗将翻倍
来源：联合国大学

联合国报告指出，受 AI 需求驱动，去年全球数据中心耗电 448 太瓦时（AI 占五分之一），耗水 4.5 万亿升。预计到 2030 年，年耗电量将翻倍至 945 太瓦时（AI 占 40%），耗水增至 9.3 万亿升。这份报告把算力繁荣的隐性账单摊开了。

论文研究

21. Echo-Infinity：学习演化记忆实现实时无限视频生成
来源：HuggingFace Daily Papers

Echo-Infinity 是一个自回归（AR）框架，用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略，通过注意力机制和门控更新 Memory Query，与视频扩散 Transformer 端到端优化，支持任意压缩比且计算量不随视频长度增加。首次实现 24 小时（超 130 万帧）实时滚动生成。

22. StreamMA：多智能体推理中的流式通信
来源：HuggingFace Daily Papers

StreamMA 采用”流式通信”范式，每个推理步骤生成后立即流式传输给下游智能体，通过流水线相邻智能体降低端到端延迟。在数学、科学和代码八项推理基准上，使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型，平均优于基线 +7.3 个百分点。

23. EVA-Bench Data 2.0：覆盖三大领域、121 个工具、213 个场景
来源：Hugging Face

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理（CSM）、企业 IT 服务管理（ITSM）和医疗 HR 服务交付（HRSD）三个领域，共涵盖 121 个工具、213 个场景，场景数较原始版本增长约 4 倍。所有三个数据集已开源，可通过 load_dataset 从 Hugging Face 直接下载。