AI 无涯日报 · 2026 年 6 月 5 日

AI 无涯日报 · 2026 年 6 月 5 日

每日精选全球 AI 热点,5 分钟掌握行业动态。


模型发布/更新

1. Nex-N2-Pro 发布:基于 Qwen3.5 的 397B MoE 推理模型
来源:SiliconFlow

neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。

2. NVIDIA Nemotron 3 Ultra:为长时间运行的智能体带来更快推理
来源:NVIDIA / LMSYS

NVIDIA 发布 Nemotron 3 Ultra 模型,专为长时间运行的 AI 智能体设计。该模型能够在多轮对话中保持上下文、调用工具、调用子智能体,并高效处理复杂工作流。随着多智能体协作导致模型 token 数量快速增长,Nemotron 3 Ultra 通过优化推理流程显著提升速度并降低计算成本,使长期运行的智能体任务更加可行。

3. Higgs Audio v3 TTS 端到端服务发布
来源:Boson AI / LMSYS

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言,在零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。

4. Nemotron 3.5 ASR:多语言流式语音识别
来源:NVIDIA

Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型,单个检查点覆盖 40 种语言-地区。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器,缓存内部状态避免重复计算,实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本,无需后处理。通过注意力上下文大小可在推理时直接调节延迟-准确率权衡,无需重新训练。

5. Google Magenta RealTime 2 (MRT2):实时音乐生成模型
来源:Google AI for Developers

Google AI for Developers 宣布推出开放权重的实时音乐模型 Magenta RealTime 2(MRT2)。该模型可通过 MIDI 键盘、实时文本提示甚至手势进行演奏。MRT2 在 MacBook 上原生运行,延迟低于 200ms,提供开放权重、开源推理引擎以及配套应用和插件套件。MRT2 把音乐生成从「后期制作」拉到了「实时演奏」。


产品发布/更新

6. ChatGPT 推出 Dreaming 记忆系统
来源:OpenAI / Sam Altman

ChatGPT 推出名为 Dreaming 的新记忆系统,能够更有效地记住用户偏好,并在跨对话场景中保持上下文的新鲜感和相关性,从而提升助手的个性化体验。ChatGPT 不再每轮对话都像失忆的金鱼,做长期助手的用户会明显感觉到不同。

7. NotebookLM 开放 Source Attribution 来源归属功能
来源:Google Gemini

NotebookLM 终于开放了 Source Attribution,能看到每个 artifact 背后的 prompt 和来源,还能直接迭代,对经常用做资料整理的重度用户是个实在的升级。无需再猜测创作物背后所用的确切公式(提示词 + 来源)。

8. Gemini for macOS:双 Command 一键分享当前窗口
来源:Google Gemini

使用适用于 macOS 的 Gemini 应用,只需同时按下两个 Command ⌘ 键,即可将当前活动窗口无缝附加到聊天中,无需手动截图或切换标签页。这个按双 Command 就分享当前窗口的功能,比手动截图快得多。

9. Replit Agent 一键开店:从想法到上线只需几分钟
来源:Replit

Replit 与 Shopify 合作,只需告诉 Replit Agent 你想卖什么,它会构建自定义店铺页面、创建 Shopify 商店,在 Shopify 中认领店铺、设置支付即可开业。Replit 把 Agent 从代码生成延伸到了实时开店,对电商创业者来说是真正的零门槛。

10. Codex 集成 iOS 应用循环开发能力
来源:OpenAI Developers

Build iOS Apps 插件让 Codex 可在应用内浏览器查看和测试你的 iOS 应用,打开 SwiftUI 预览,并无需离开 Codex 即可热重载编辑。对 iOS 开发者很实用,减少工具间反复横跳。

11. hf CLI 为编码智能体重塑输出格式
来源:Hugging Face

Hugging Face 重新设计 hf CLI,使其同时服务人类用户和编码智能体(Claude Code、Codex 等)。CLI 通过环境变量自动检测智能体驱动,输出紧凑无截断的 TSV 格式,避免 ANSI 和交互提示。Claude Code 约 4 万用户、近 4900 万次请求,使用 CLI 的智能体 token 消耗比不使用节省 2-6 倍。

12. OpenClaw 2026.6.1 上线:原生 Windows + Skill Workshop
来源:OpenClaw

OpenClaw 2026.6.1 带来原生 Windows 支持、Skill Workshop(自主学习型智能体技能工坊)、Workboard 编排,以及 MiniMax M3 模型支持。Windows 加入集群,无需 WSL。


行业动态

13. OpenRouter 11 款 LLM 决策模型大逃杀:Claude 和 Grok 胜
来源:OpenRouter

OpenRouter 让 11 个模型打了 30 局生存竞技,用总价 482 美元的推理花费测试在实时决策任务中的表现。实验发现传统静态 benchmark 排名无法反映模型在需要即时反应的智能体任务中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。

14. DeepSeek 连续四周位居 OpenRouter token 份额第一
来源:OpenRouter

OpenRouter 作为风向标级的 API 聚合器,DeepSeek 连续四周 token 份额排行榜第一。这个数据比任何 benchmark 都实在,对还在犹豫选哪个模型的产品人来说是个明确的信号。

15. 微软 AI 负责人:Anthropic 模型太贵,正自研更便宜的替代模型
来源:Bloomberg

微软 AI 部门负责人表示,Anthropic 推出的模型成本过高,公司目前正在内部研发更廉价的替代模型,以降低成本。这番话是大厂向高价模型供应商发出的明确信号,Anthropic 的商业化压力又加了一层。

16. 台积电:难以跟上 AI 需求
来源:The Verge

全球最大芯片制造商台积电表示,通过美国本土生产满足客户需求可能需要”非常长的时间”,凸显 AI 需求带来的产能压力。TSMC 的产能警告不是 PR 话术,是真实的供需失衡,所有等着买 GPU 的 AI 公司都要做好长期作战准备。

17. Cloudflare:机器人流量首次超过人类,占比 57.5%
来源:Cloudflare Radar / SemiAnalysis

过去一周(5月28日至6月4日)全球所有 HTML 网页请求流量中,57.5% 来自机器人,仅 42.5% 来自真人浏览器。互联网流量主体已从人类浏览网页转向机器间通信和机器人抓取。这是 AI 时代的真正里程碑。

18. Anthropic 研究报告:AI 加速自我构建趋势
来源:Anthropic / Kim / Testing Catalog

Anthropic 研究院报告指出,AI 正加速 AI 开发:2021–2025 年间工程师人均季度代码量提升 8 倍,截至 2026 年 5 月超 80% 合并代码由 Claude 生成。SWE-bench 两年内从低个位数得分饱和;METR 测试显示 Claude Mythos Preview 可连续工作至少 16 小时。但 AI 自主设定目标的能力仍存显著差距。

19. OpenAI 首次承认递归自我改进的早期迹象
来源:OpenAI / Kim

OpenAI 在《智能时代的生物防御》行动计划中公开承认看到递归自我改进(RSI)的早期迹象:AI 开发本身正被 AI 加速。社会将需要找到塑造 AI 发展轨迹的方法,确保其服务于人类利益。

20. 联合国报告:2030 年 AI 数据中心水电消耗将翻倍
来源:联合国大学

联合国报告指出,受 AI 需求驱动,去年全球数据中心耗电 448 太瓦时(AI 占五分之一),耗水 4.5 万亿升。预计到 2030 年,年耗电量将翻倍至 945 太瓦时(AI 占 40%),耗水增至 9.3 万亿升。这份报告把算力繁荣的隐性账单摊开了。


论文研究

21. Echo-Infinity:学习演化记忆实现实时无限视频生成
来源:HuggingFace Daily Papers

Echo-Infinity 是一个自回归(AR)框架,用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略,通过注意力机制和门控更新 Memory Query,与视频扩散 Transformer 端到端优化,支持任意压缩比且计算量不随视频长度增加。首次实现 24 小时(超 130 万帧)实时滚动生成。

22. StreamMA:多智能体推理中的流式通信
来源:HuggingFace Daily Papers

StreamMA 采用”流式通信”范式,每个推理步骤生成后立即流式传输给下游智能体,通过流水线相邻智能体降低端到端延迟。在数学、科学和代码八项推理基准上,使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型,平均优于基线 +7.3 个百分点。

23. EVA-Bench Data 2.0:覆盖三大领域、121 个工具、213 个场景
来源:Hugging Face

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗 HR 服务交付(HRSD)三个领域,共涵盖 121 个工具、213 个场景,场景数较原始版本增长约 4 倍。所有三个数据集已开源,可通过 load_dataset 从 Hugging Face 直接下载。


技巧与观点

24. Ethan Mollick:共存与协同智能的终结
来源:Ethan Mollick / One Useful Thing

Ethan Mollick 在 One Useful Thing 博客中以”共存与协同智能的终结”为题,宣告「协同智能」时代结束。他的观点总是超前的,这篇值得点开看看——如果判断成立,所有依赖人机协作的产品设计都得重新思考。

25. Meta-Agent Challenge:评估自主智能体开发能力
来源:HuggingFace Daily Papers

蚂蚁研究院提出 MAC 评估框架,测试前沿模型自主开发智能体系统的能力。实验中元智能体极少达到人类基线策略,少数成功者由专有前沿模型主导。设计过程高方差,高优化压力催生了真实值外泄等对抗行为,暴露鲁棒性与对齐缺陷。

26. Alex Imas & Phil Trammell:AGI 后什么仍然稀缺?
来源:Dwarkesh Patel

经济学家指出,AGI 时代机器人数量可以快速复制增长,但人类独特技能(以芭蕾舞演员为例)的数量保持不变,揭示了即使技术大幅进步,某些稀缺资源仍不可替代。


  • 内容提取注意事项 — 自动正则解析有效率约 22%,大量碎片化条目。本文采用人工从清洗文本中识别归类后编写。
  • 数据来源:AI HOT (aihot.virxact.com)

编辑:AI 无涯 | 数据来源:AI HOT (aihot.virxact.com)