AI 无涯日报 · 2026 年 5 月 30 日

无涯2026-05-302026-05-30

AI 无涯日报 · 2026 年 5 月 30 日

每日精选全球 AI 热点，5 分钟掌握行业动态。

模型发布/更新

1. xAI 最大 GPU 客户放弃 JAX，自研 C 训练框架
来源：JAX NVIDIA GPU & XLA

据报道 xAI 的最大 GPU 客户已宣布放弃 JAX GPU，宁愿用 Grok Build “氛围编程” 构建一个 C 训练框架。此前 xAI 的 JAX 堆栈 MFU（模型算力利用率）低于 10%，NVIDIA JAX 团队过去两年全力支持 xAI 却未能解决。这一事件表明 JAX 在大规模训练场景下的底层缺陷可能比预期更严重。

2. OpenAI 发布 gpt-realtime-translate — 实时语音翻译模型
来源：OpenAI

OpenAI 推出全新模型 gpt-realtime-translate，可接收任意语言的语音输入，直接输出翻译后的语音。这是 OpenAI 在实时多模态翻译领域的重磅产品。

3. 小米开源 ControlFoley — 可控视频音效生成模型
来源：小米大模型应用团队

小米发布开源可控视频音效生成模型 ControlFoley，统一支持文本引导、文本控制、参考音频控制三类视频配音任务。在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA，代码、权重和 Demo 均已开放。

4. Kog 团队实现 10-30 倍推理加速：3000 tokens/s
来源：Kog Team

Kog 团队在标准数据中心 GPU 上实现单用户推理速度达 3,000 tokens/s（8×AMD MI300X），2,100 tokens/s（8×NVIDIA H200），相比常规推理速度提升 10-30 倍。核心思路是将 LLM 解码视为内存流问题，通过协同设计 monokernel 和 Laneformer 架构实现。

5. Runway API 新增多款模型
来源：Runway

Runway API 持续扩展，新增 Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2 等多款模型，开发者可在一个地方调用所有生成能力。

产品发布/更新

6. Google Agents API 正式发布
来源：Google

Google 正式发布 Agents API，这是一项用于构建和运行自定义智能体的服务，在沙箱环境中运行，支持工具调用和任务自动化。

7. LlamaIndex 模板接入 Google Agents API
来源：LlamaIndex

LlamaIndex 团队基于 Google Agents API 构建了模板，使智能体能够通过 LlamaParse 和 LiteParse 自动处理非结构化文档。开发者可直接复用该模板。

8. ComfyUI 首次集成 LLM 路由服务
来源：ComfyUI

ComfyUI 首次直接集成 LLM 路由服务，为图像管线增加”外挂大脑”，用户可在节点内调用 20+ 模型，大幅简化自动化工作流。

9. OpenRouter 支持 apply_patch — 多模型文件编辑统一工具
来源：OpenRouter

OpenRouter 新增 apply_patch 服务器工具，允许任何模型通过 Responses API 使用 V4A diffs 提出文件编辑建议，解决了多模型文件编辑适配碎片化问题。

10. claude-design-card — 中文视觉卡片生成 Skill
来源：社区

一款专为中文内容创作者设计的 Skill，支持 28 种布局与 10 种主题，可将文字、URL 或文章自动转化为公众号首图、小红书图文卡等视觉卡片，替代 Figma/Canva 的手动流程。

11. Guardrails 安全治理工具发布
来源：Guardrails

一套可配置的安全与治理工具，提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能，保护智能体应用安全。

行业动态

12. 阿里云 + Qwen 成为 UEFA 官方合作伙伴（2027-2033）
来源：阿里云

阿里云和 Qwen 成为 UEFA 官方独家 AI、云计算与电子商务合作伙伴，合作期覆盖 2027/2028 赛季至 2032/2033 赛季的 UEFA 男子俱乐部赛事及 EURO 2028。将利用 Qwen 大模型增强球迷互动与媒体体验。

13. OpenAI 推出 Rosalind Biodefense — 生物防御 AI
来源：OpenAI

OpenAI 推出 Rosalind Biodefense，为通过审核的开发者和美国政府伙伴提供 GPT-Rosalind 的可信访问，推动前沿 AI 在生物防御、公共卫生和大流行病准备方面的应用。

14. 中央网信办：提升全民人工智能素养
来源：中央网信办

中央网信办等四部门联合印发《2026年提升全民数字素养与技能工作要点》，明确要求”提升全民人工智能素养”，包括强化 AI 赋能教育、加快 AI 人才培育、深化 AI 普及应用。

15. Gemini 四巨头首次同台访谈
来源：Google

Jeff Dean、Koray Kavukcuoglu、Oriol Vinyals 和 Noam Shazeer 四位 Gemini 核心人物首次同时出镜，分享模型背后的团队故事与未来愿景。

16. Cognition 创始人：AI 编码代理不应取代人类
来源：Cognition

Cognition 公司（Devvin 开发者）创始人 Scott Wu 明确表示，AI 编程智能体并非旨在取代人类程序员，这一表态引发了开发者工具行业的热议。

论文研究

17. 技能提炼（Skill Distillation）：大模型写流程，小模型执行
来源：社区研究

“技能提炼”是一种新的知识转移方法，由前沿大模型（Opus 4.7、GPT-5.1、Gemini 3 Pro）撰写并优化标准化的 SKILL.md 流程文件，本地小模型（Qwen 35B、Gemma 26B）直接执行。区别于知识蒸馏、指令微调和 RAG，其核心是提取操作流程。

18. 彩色噪声采样（CNS）：扩散模型免训练采样器提升生成质量
来源：arXiv

研究提出彩色噪声采样（CNS），一种免训练的即插即用扩散模型采样器。在 SiT、JiT、FLUX 等架构上，无引导 FID 在 SiT-XL/2 上从 8.26 降至 6.27，显著提升生成质量。

19. Adam’s Law（文本频率定律）：高频表达让模型表现更好
来源：FaceMind

FaceMind 团队实验发现，在语义不变的前提下，使用预训练语料中出现频率更高的词汇撰写提示词，可显著提升大语言模型表现。这一发现为数据工程补充了”频率”这一新维度。

20. WorldMemArena：多模态智能体记忆评估基准
来源：论文研究

研究提出 WorldMemArena 基准，包含 400 个多会话多模态任务，支持对记忆的写入、维护、检索和使用的阶段级评估。发现记忆写入质量的提升不直接带来性能改善。

技巧与观点

21. Google AI Studio 用 vibe coding 创建 I/O 2026 测验
来源：Google

Google 使用 AI Studio 以 vibe coding 方式创建了 I/O 2026 主要公告在线测验，展示了普通用户也能利用该工具进行开发。

22. 别再给 AI 拽高级词汇了
来源：FaceMind

FaceMind 的 Adam’s Law 实验证明，高频常见词能让模型表现更好。下次写 Prompt 时，先用最自然的语言表达，而不是刻意使用生僻词汇。

编辑：AI 无涯 | 数据来源：AI HOT (aihot.virxact.com)