Beijing · 2026-06-26

AI 日报 | 2026-06-26

今天的主线是推理成本与 Agent 产品化：OpenAI 公开定制 inference ASIC，NVIDIA 强化 Blackwell decode 软件栈；Claude、Gemini、Copilot 继续把 agent 推进 Slack、API 与桌面开发入口。

核心条目 5

总来源/条目 14

覆盖模型 · Agent · Infra · 中国生态

推理芯片进入模型公司自控阶段。

Agent 分发入口从聊天框转向工作流。

开源 serving 层继续多硬件适配。

中国模型生态重点看 GLM/Qwen/DeepSeek 开发者侧进展。

芯片/算力

1. OpenAI 与 Broadcom 发布 Jalapeño：面向 LLM inference 的定制 ASIC

OpenAI 官方新闻显示，OpenAI 与 Broadcom 在 6 月 24 日发布 Jalapeño，一颗为大语言模型推理优化的定制芯片。重点不在通用训练，而是把模型、kernel、serving 与产品负载联合设计，以改善 performance-per-watt 和规模化推理成本。

关键细节

Jalapeño 是 OpenAI 首个公开命名的自研/联合设计 AI inference chip。
OpenAI 称早期测试显示其性能功耗比优于当前 state-of-the-art alternatives；Broadcom 负责芯片工程和量产相关能力。
这与 Google TPU、AWS Trainium/Inferentia、Microsoft Maia、Meta MTIA 等 hyperscaler ASIC 路线一致：前沿模型公司正在把推理栈向 silicon co-design 推进。

为什么重要

如果真实部署规模扩大，OpenAI 可在 GPU 供应、单位 token 成本、延迟和产品功能节奏上获得更强控制权；同时也会进一步压缩纯 GPU 供应链在推理侧的议价空间。

来源：OpenAI 官方：OpenAI and Broadcom unveil LLM-optimized inference chip TechCrunch 报道

Agent/协作

2. Anthropic 推 Claude Tag：把 Claude 作为 Slack 团队成员接入组织上下文

Anthropic 6 月 23 日发布 Claude Tag，先从 Slack 开始，让 Claude 以团队成员形态加入频道，并可在授权范围内连接工具、数据和代码库。

关键细节

产品重点从单人聊天转向 team-aware agent：Claude 能读取被授权频道上下文，参与讨论并调用连接的组织资源。
这类协作入口对权限、审计、上下文隔离和 prompt-injection 防护要求更高，也会推动企业把 agent policy 与现有 IAM/数据治理打通。
对 Anthropic 来说，Slack 是高频工作流入口，Claude Tag 与 Claude Code、MCP/工具调用生态构成同一条企业 agent 路线。

为什么重要

Agent 竞争正在从“模型是否能完成任务”转到“能否安全地驻留在真实工作场景中”。Slack/Teams/IDE/浏览器会成为下一阶段企业 AI 分发的关键入口。

来源：Anthropic 官方：Introducing Claude Tag

Agent/产品 API

3. Google Gemini API 发布 Computer Use 公测：Gemini 3.5 Flash 增加可操作电脑工具

Google AI for Developers changelog 显示，6 月 24 日 Gemini API 为 Gemini 3.5 Flash 推出 Computer Use tool public preview。

关键细节

Computer Use 意味着模型可通过工具层与浏览器/桌面式界面交互，进入与 Claude Computer Use、OpenAI Operator/Codex 类似的 agent execution 场景。
Google 选择在 Flash 档位做公测，说明其希望把成本、延迟与可扩展性作为 agent 产品化的基础。
这会直接影响 browser automation、RPA、QA、数据录入、研究助手等高频任务，也对 sandbox、截图理解和失败恢复提出要求。

为什么重要

“能操作界面”的模型工具是 agent 从文本建议走向端到端执行的核心能力；Google 把它并入 Gemini API，开发者可更直接地构建跨网页/应用工作流。

来源：Gemini API release notes

开源基础设施

4. vLLM 最新 release 继续推进大规模 serving：async scheduling 默认、XPU/FP8/MoE 路径增强

vLLM GitHub release 页面显示，近期版本包含数百个 commits，重点集中在 serving 性能、异步调度、Intel XPU kernel、FP8/W8A8、MoE 与编译/融合路径。

关键细节

v0.14.0 release notes 提到 async scheduling 默认启用，并包含约 660 commits、251 contributors。
近期条目覆盖 Intel XPU kernel、block_fp8_moe、block-scaled W8A8 FP8 path、GPTQ int4、rms_norm/activation quant fusion、GDN-attention MTP 等。
Q2 roadmap 继续强调 PyTorch compilation integration、custom compile/fusion passes、kernel registration 与 compile-time caching。

为什么重要

vLLM 正在从“高吞吐 serving engine”演进为多硬件、多量化、多编译路径的生产推理层。对企业而言，模型能力之外，吞吐、稳定性和硬件可移植性正在决定真实部署成本。

来源：vLLM releases vLLM Q2 2026 roadmap

芯片/推理优化

5. NVIDIA DFlash：Blackwell 上最高 15x 推理解码加速的 speculative decoding 路线

NVIDIA Developer Blog 近日介绍 DFlash，在 Blackwell 上通过 block-diffusion speculative decoding 提升 decode 性能，宣称最高 15x。

关键细节

DFlash 使用 PyTorch 与原生 CUDA，将 speculative decoding 从 token 级草稿扩展到 block-diffusion 风格。
NVIDIA 将其定位为 Blackwell 上的推理吞吐优化，配合平台级 co-design 降低 token cost。
这类软件优化对长上下文、代码生成、agent loop 等高 decode 占比负载尤其重要。

为什么重要

芯片竞争不只看峰值 FLOPS；推理时代的瓶颈常在 memory、decode latency、batching 和调度。DFlash 代表 GPU 厂商用软件栈守住 inference economics 的方向。

来源：NVIDIA Developer Blog：DFlash speculative decoding

Watchlist

其他值得关注

中国生态：智谱 GLM-5/GLM-5.2 进入开发者/API/开源节奏智谱开放文档已给出 GLM-5 调用示例、thinking 开关、max_tokens 65536 等接口细节；多方信息显示 GLM-5.2 近期聚焦 agentic coding 与开源权重。来源
中国生态：Qwen 继续推进模型与 Qwen Code 工具链Qwen 官方站展示 Qwen-Image、Qwen3 系列与 Qwen Code 文档；近期 Qwen Code 周报覆盖 LSP、batch runner、多语言、计划模式等 agentic coding 能力。来源
DeepSeek：官方 GitHub 与推理适配仍是观察重点DeepSeek-V3 GitHub 页面继续记录 TensorRT-LLM 支持、BF16/INT4/INT8 weight-only、FP8 in progress 等部署信息；近期未发现 24 小时内官方新模型发布。来源
llama.cpp：本地推理发行版持续高频更新ggml-org/llama.cpp releases 继续发布多平台二进制包，项目 README 强调 llama-server multimodal support；本地推理生态仍以小步快跑吸收新模型/后端。来源
MCP：June 2026 spec 正在 RC/FINAL 里程碑推进modelcontextprotocol GitHub milestone 显示 June 2026 spec release 的 RC/FINAL 节点推进，并讨论 Skills over MCP 的 SDK 支持。来源
GitHub Copilot：桌面 app GA 与 usage-based billing 后的 agent 分发GitHub Changelog 显示 Copilot app 已在 macOS/Windows/Linux GA，定位为 agent-driven development 桌面入口；6 月起计划和计费转向 AI Credits。来源
商业：OpenAI/Anthropic 走向 IPO 与 AI 服务并购链条Reuters 近期报道 OpenAI、Anthropic 均已推进 IPO/融资与服务公司收购相关动作，显示模型公司正向资本市场和企业落地服务链条扩张。来源