AI 日报 | 2026-05-07

今天概览

过去 48 小时的高置信更新集中在三条线上：一是 OpenAI / Anthropic 继续把“默认模型 + agent 产品 + 企业交付”往真实工作流里压；二是 Google / 开源推理栈围绕 multimodal RAG、Webhooks、MTP/spec decoding、DeepSeek V4 做工程提速；三是大模型公司的瓶颈仍然是 compute，Anthropic 新增 SpaceX Colossus 1 算力并同步上调 Claude Code / API 限额。今天主条目均来自官方、项目 release 或 GitHub/API 原始来源；未核实的二手聚合和弱商业传闻已省略。

今日最重要的 5 条

1) OpenAI 发布 GPT-5.5 Instant：默认 ChatGPT 模型更新，强调更低幻觉与更强个性化控制

- 摘要：OpenAI 将 ChatGPT 默认模型升级到 GPT-5.5 Instant，定位是更聪明、更清晰、更个性化的即时响应模型。

- 关键细节：官方页面强调 smarter / clearer / more personalized，并配套系统卡；这是默认交互模型层面的产品更新，而不是只面向 API 或重推理模型的发布。

- 为什么重要：默认模型决定了大多数用户的日常体验；OpenAI 正在把“高能力”进一步下沉到低延迟、常驻入口，而不是只把能力放在 Pro/长推理路径。

- 来源标签：官方

- 链接：https://openai.com/index/gpt-5-5-instant

2) OpenAI 公开 MRC：面向大规模 AI 训练网络的 Multipath Reliable Connection

- 摘要：OpenAI 发布 MRC，用于提升大型训练集群网络的可靠性和性能，并通过 OCP 释放。

- 关键细节：MRC 的目标是大规模 supercomputer networking，在训练网络中处理多路径可靠连接问题；官方标题明确为 “Supercomputer networking to accelerate large scale AI training”。

- 为什么重要：训练扩展不只靠 GPU 数量，网络 tail latency、链路故障恢复和吞吐稳定性都会直接影响训练效率；OpenAI 将底层网络协议经验公开，说明 frontier lab 的系统工程正在外溢到行业基础设施层。

- 来源标签：官方

- 链接：https://openai.com/index/mrc-supercomputer-networking

3) Anthropic 获得 SpaceX Colossus 1 算力，并上调 Claude Code / Claude API 限额

- 摘要：Anthropic 与 SpaceX 达成 compute partnership，将使用 Colossus 1 数据中心全部算力，并同步提升 Claude Code 与 Claude Opus API 限额。

- 关键细节：Anthropic 称本次新增超过 300MW、超过 220,000 NVIDIA GPUs 的算力；Claude Code 的 5 小时 rate limits 对 Pro、Max、Team、seat-based Enterprise 翻倍，Pro/Max 移除 peak hours 限额降低，并显著提高 Claude Opus API rate limits。

- 为什么重要：这把“模型能力”和“用户可用吞吐”直接绑定起来。Claude Code 这类长任务 agent 的体验瓶颈经常不是模型 IQ，而是限额、排队和上下文/工具调用吞吐；新增算力会直接影响 agent 产品可用性。

- 来源标签：官方

- 链接：https://www.anthropic.com/news/higher-limits-spacex

4) Google Gemini API File Search 支持多模态，推进“可验证 RAG”开发路径

- 摘要：Google 将 Gemini API File Search 扩展到 multimodal，用于构建更高效、可验证的 RAG。

- 关键细节：官方发布时间为 2026-05-05；文章标题明确为 “Gemini API File Search is now multimodal: build efficient, verifiable RAG”。

- 为什么重要：RAG 正从纯文本检索进入文档、图片、表格等混合内容场景；“verifiable” 也说明平台方在把引用、溯源和开发者可控性作为 API 能力，而不只是模型回答质量。

- 来源标签：官方

- 链接：https://blog.google/innovation-and-ai/technology/developers-tools/expanded-gemini-api-file-search-multimodal-rag/

5) Gemma 4 / DeepSeek V4 相关推理栈集中更新：MTP、spec decoding、vLLM / SGLang / Transformers 同步适配

- 摘要：Google 发布 Gemma 4 MTP drafters 提速说明；Hugging Face Transformers 5.8.0 新增 DeepSeek-V4 与 Gemma 4 Assistant；vLLM 0.20.1 聚焦 DeepSeek V4 稳定和性能；SGLang 0.5.11 默认启用 Speculative Decoding V2，并新增多个模型 day-0 支持；Ollama 0.23.1 在 MLX runner 支持 Gemma 4 MTP。

- 关键细节：Google 称 MTP drafters 可让 Gemma 4 推理最高 3x；Ollama 称 Gemma 4 31B coding 在 Mac 上可获得超过 2x speed increase；vLLM release 明确列出 DeepSeek V4 base support、多流 pre-attention GEMM、FlashInfer BF16/MXFP8 all-to-all、TopK deadlock 修复等。

- 为什么重要：开源模型竞争正在从“模型文件发布”转向“端到端 serving 可用性”。MTP/spec decoding、PD disaggregation、radix cache、FlashInfer/FA kernels 这些工程细节会直接决定开发者能否低成本跑长上下文和 coding/agent workload。

- 来源标签：官方 / 项目原始来源

- 链接：

- https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

- https://github.com/huggingface/transformers/releases/tag/v5.8.0

- https://github.com/vllm-project/vllm/releases/tag/v0.20.1

- https://github.com/sgl-project/sglang/releases/tag/v0.5.11

- https://github.com/ollama/ollama/releases/tag/v0.23.1

信号观察

- Anthropic 发布金融服务 agent 模板：10 个 ready-to-run agent templates 覆盖 pitchbook、KYC、month-end close 等任务，形态包括 Claude Cowork / Claude Code plugin 与 Claude Managed Agents cookbook；其写法明显是面向垂直行业交付，而不是泛用聊天入口。来源：https://www.anthropic.com/news/finance-agents

- Anthropic 与 Blackstone、Hellman & Friedman、Goldman Sachs 成立新的企业 AI 服务公司，目标是把 Claude 带入中型企业核心流程；这说明 frontier lab 正在补“最后一公里实施能力”，与 SI/咨询伙伴形成多层交付网络。来源：https://www.anthropic.com/news/enterprise-ai-services-company

- Google Gemini API 新增 Event-Driven Webhooks，针对长运行任务减少 polling friction / latency；这和 OpenAI 之前推动 Responses API WebSockets 属于同一方向：agent workflow 的平台接口正在从 request/response 走向异步、事件驱动。来源：https://blog.google/innovation-and-ai/technology/developers-tools/event-driven-webhooks/

- GitHub MCP Server 安全能力增强：secret scanning 已 GA，dependency scanning 进入 public preview，目标是在 MCP-compatible AI coding agent / IDE 使用时，把凭据泄露和依赖漏洞检查前移到编码/提交前。来源：https://github.blog/changelog/2026-05-05-secret-scanning-with-github-mcp-server-is-now-generally-available ｜ https://github.blog/changelog/2026-05-05-dependency-scanning-with-github-mcp-server-is-in-public-preview

延伸阅读

- OpenAI × PwC：reimagine the office of the CFO｜企业 finance agentic workflow 的又一案例，重点在 controls、forecasting、token/AI spend governance｜官方｜https://openai.com/index/openai-pwc-finance-collaboration

- NVIDIA：Extreme Co-Design for agentic systems｜从 token/context/prompt cache/HBM 角度讨论 agentic system 的成本与硬件需求｜官方｜https://developer.nvidia.com/blog/building-for-the-rising-complexity-of-agentic-systems-with-extreme-co-design/

- OpenAI：How frontier enterprises are building an AI advantage｜B2B Signals 研究入口；本次读取正文受 403 限制，仅作为延伸阅读，不作为主条目依据｜官方索引发现｜https://openai.com/index/introducing-b2b-signals

说明

本期仅保留官方、项目 release / GitHub API 或一手来源支撑的信息。Google News 中出现的 Anthropic/Google $200B cloud/chips、OpenAI JV、Sierra 融资等商业新闻候选，因本轮未能打开可信原文或存在聚合源噪声，未写入主条目。