AI 无涯日报 · 2026 年 5 月 30 日
AI 无涯日报 · 2026 年 5 月 30 日
无涯AI 无涯日报 · 2026 年 5 月 30 日
每日精选全球 AI 热点,5 分钟掌握行业动态。
模型发布/更新
1. xAI 最大 GPU 客户放弃 JAX,自研 C 训练框架
来源:JAX NVIDIA GPU & XLA
据报道 xAI 的最大 GPU 客户已宣布放弃 JAX GPU,宁愿用 Grok Build “氛围编程” 构建一个 C 训练框架。此前 xAI 的 JAX 堆栈 MFU(模型算力利用率)低于 10%,NVIDIA JAX 团队过去两年全力支持 xAI 却未能解决。这一事件表明 JAX 在大规模训练场景下的底层缺陷可能比预期更严重。
2. OpenAI 发布 gpt-realtime-translate — 实时语音翻译模型
来源:OpenAI
OpenAI 推出全新模型 gpt-realtime-translate,可接收任意语言的语音输入,直接输出翻译后的语音。这是 OpenAI 在实时多模态翻译领域的重磅产品。
3. 小米开源 ControlFoley — 可控视频音效生成模型
来源:小米大模型应用团队
小米发布开源可控视频音效生成模型 ControlFoley,统一支持文本引导、文本控制、参考音频控制三类视频配音任务。在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA,代码、权重和 Demo 均已开放。
4. Kog 团队实现 10-30 倍推理加速:3000 tokens/s
来源:Kog Team
Kog 团队在标准数据中心 GPU 上实现单用户推理速度达 3,000 tokens/s(8×AMD MI300X),2,100 tokens/s(8×NVIDIA H200),相比常规推理速度提升 10-30 倍。核心思路是将 LLM 解码视为内存流问题,通过协同设计 monokernel 和 Laneformer 架构实现。
5. Runway API 新增多款模型
来源:Runway
Runway API 持续扩展,新增 Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2 等多款模型,开发者可在一个地方调用所有生成能力。
产品发布/更新
6. Google Agents API 正式发布
来源:Google
Google 正式发布 Agents API,这是一项用于构建和运行自定义智能体的服务,在沙箱环境中运行,支持工具调用和任务自动化。
7. LlamaIndex 模板接入 Google Agents API
来源:LlamaIndex
LlamaIndex 团队基于 Google Agents API 构建了模板,使智能体能够通过 LlamaParse 和 LiteParse 自动处理非结构化文档。开发者可直接复用该模板。
8. ComfyUI 首次集成 LLM 路由服务
来源:ComfyUI
ComfyUI 首次直接集成 LLM 路由服务,为图像管线增加”外挂大脑”,用户可在节点内调用 20+ 模型,大幅简化自动化工作流。
9. OpenRouter 支持 apply_patch — 多模型文件编辑统一工具
来源:OpenRouter
OpenRouter 新增 apply_patch 服务器工具,允许任何模型通过 Responses API 使用 V4A diffs 提出文件编辑建议,解决了多模型文件编辑适配碎片化问题。
10. claude-design-card — 中文视觉卡片生成 Skill
来源:社区
一款专为中文内容创作者设计的 Skill,支持 28 种布局与 10 种主题,可将文字、URL 或文章自动转化为公众号首图、小红书图文卡等视觉卡片,替代 Figma/Canva 的手动流程。
11. Guardrails 安全治理工具发布
来源:Guardrails
一套可配置的安全与治理工具,提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能,保护智能体应用安全。
行业动态
12. 阿里云 + Qwen 成为 UEFA 官方合作伙伴(2027-2033)
来源:阿里云
阿里云和 Qwen 成为 UEFA 官方独家 AI、云计算与电子商务合作伙伴,合作期覆盖 2027/2028 赛季至 2032/2033 赛季的 UEFA 男子俱乐部赛事及 EURO 2028。将利用 Qwen 大模型增强球迷互动与媒体体验。
13. OpenAI 推出 Rosalind Biodefense — 生物防御 AI
来源:OpenAI
OpenAI 推出 Rosalind Biodefense,为通过审核的开发者和美国政府伙伴提供 GPT-Rosalind 的可信访问,推动前沿 AI 在生物防御、公共卫生和大流行病准备方面的应用。
14. 中央网信办:提升全民人工智能素养
来源:中央网信办
中央网信办等四部门联合印发《2026年提升全民数字素养与技能工作要点》,明确要求”提升全民人工智能素养”,包括强化 AI 赋能教育、加快 AI 人才培育、深化 AI 普及应用。
15. Gemini 四巨头首次同台访谈
来源:Google
Jeff Dean、Koray Kavukcuoglu、Oriol Vinyals 和 Noam Shazeer 四位 Gemini 核心人物首次同时出镜,分享模型背后的团队故事与未来愿景。
16. Cognition 创始人:AI 编码代理不应取代人类
来源:Cognition
Cognition 公司(Devvin 开发者)创始人 Scott Wu 明确表示,AI 编程智能体并非旨在取代人类程序员,这一表态引发了开发者工具行业的热议。
论文研究
17. 技能提炼(Skill Distillation):大模型写流程,小模型执行
来源:社区研究
“技能提炼”是一种新的知识转移方法,由前沿大模型(Opus 4.7、GPT-5.1、Gemini 3 Pro)撰写并优化标准化的 SKILL.md 流程文件,本地小模型(Qwen 35B、Gemma 26B)直接执行。区别于知识蒸馏、指令微调和 RAG,其核心是提取操作流程。
18. 彩色噪声采样(CNS):扩散模型免训练采样器提升生成质量
来源:arXiv
研究提出彩色噪声采样(CNS),一种免训练的即插即用扩散模型采样器。在 SiT、JiT、FLUX 等架构上,无引导 FID 在 SiT-XL/2 上从 8.26 降至 6.27,显著提升生成质量。
19. Adam’s Law(文本频率定律):高频表达让模型表现更好
来源:FaceMind
FaceMind 团队实验发现,在语义不变的前提下,使用预训练语料中出现频率更高的词汇撰写提示词,可显著提升大语言模型表现。这一发现为数据工程补充了”频率”这一新维度。
20. WorldMemArena:多模态智能体记忆评估基准
来源:论文研究
研究提出 WorldMemArena 基准,包含 400 个多会话多模态任务,支持对记忆的写入、维护、检索和使用的阶段级评估。发现记忆写入质量的提升不直接带来性能改善。
技巧与观点
21. Google AI Studio 用 vibe coding 创建 I/O 2026 测验
来源:Google
Google 使用 AI Studio 以 vibe coding 方式创建了 I/O 2026 主要公告在线测验,展示了普通用户也能利用该工具进行开发。
22. 别再给 AI 拽高级词汇了
来源:FaceMind
FaceMind 的 Adam’s Law 实验证明,高频常见词能让模型表现更好。下次写 Prompt 时,先用最自然的语言表达,而不是刻意使用生僻词汇。
编辑:AI 无涯 | 数据来源:AI HOT (aihot.virxact.com)
