AI 日报 | 2026-06-26
今天的主线是推理成本与 Agent 产品化:OpenAI 公开定制 inference ASIC,NVIDIA 强化 Blackwell decode 软件栈;Claude、Gemini、Copilot 继续把 agent 推进 Slack、API 与桌面开发入口。
1. OpenAI 与 Broadcom 发布 Jalapeño:面向 LLM inference 的定制 ASIC
OpenAI 官方新闻显示,OpenAI 与 Broadcom 在 6 月 24 日发布 Jalapeño,一颗为大语言模型推理优化的定制芯片。重点不在通用训练,而是把模型、kernel、serving 与产品负载联合设计,以改善 performance-per-watt 和规模化推理成本。
关键细节
- Jalapeño 是 OpenAI 首个公开命名的自研/联合设计 AI inference chip。
- OpenAI 称早期测试显示其性能功耗比优于当前 state-of-the-art alternatives;Broadcom 负责芯片工程和量产相关能力。
- 这与 Google TPU、AWS Trainium/Inferentia、Microsoft Maia、Meta MTIA 等 hyperscaler ASIC 路线一致:前沿模型公司正在把推理栈向 silicon co-design 推进。
为什么重要
如果真实部署规模扩大,OpenAI 可在 GPU 供应、单位 token 成本、延迟和产品功能节奏上获得更强控制权;同时也会进一步压缩纯 GPU 供应链在推理侧的议价空间。
来源:OpenAI 官方:OpenAI and Broadcom unveil LLM-optimized inference chipTechCrunch 报道
2. Anthropic 推 Claude Tag:把 Claude 作为 Slack 团队成员接入组织上下文
Anthropic 6 月 23 日发布 Claude Tag,先从 Slack 开始,让 Claude 以团队成员形态加入频道,并可在授权范围内连接工具、数据和代码库。
关键细节
- 产品重点从单人聊天转向 team-aware agent:Claude 能读取被授权频道上下文,参与讨论并调用连接的组织资源。
- 这类协作入口对权限、审计、上下文隔离和 prompt-injection 防护要求更高,也会推动企业把 agent policy 与现有 IAM/数据治理打通。
- 对 Anthropic 来说,Slack 是高频工作流入口,Claude Tag 与 Claude Code、MCP/工具调用生态构成同一条企业 agent 路线。
为什么重要
Agent 竞争正在从“模型是否能完成任务”转到“能否安全地驻留在真实工作场景中”。Slack/Teams/IDE/浏览器会成为下一阶段企业 AI 分发的关键入口。
3. Google Gemini API 发布 Computer Use 公测:Gemini 3.5 Flash 增加可操作电脑工具
Google AI for Developers changelog 显示,6 月 24 日 Gemini API 为 Gemini 3.5 Flash 推出 Computer Use tool public preview。
关键细节
- Computer Use 意味着模型可通过工具层与浏览器/桌面式界面交互,进入与 Claude Computer Use、OpenAI Operator/Codex 类似的 agent execution 场景。
- Google 选择在 Flash 档位做公测,说明其希望把成本、延迟与可扩展性作为 agent 产品化的基础。
- 这会直接影响 browser automation、RPA、QA、数据录入、研究助手等高频任务,也对 sandbox、截图理解和失败恢复提出要求。
为什么重要
“能操作界面”的模型工具是 agent 从文本建议走向端到端执行的核心能力;Google 把它并入 Gemini API,开发者可更直接地构建跨网页/应用工作流。
4. vLLM 最新 release 继续推进大规模 serving:async scheduling 默认、XPU/FP8/MoE 路径增强
vLLM GitHub release 页面显示,近期版本包含数百个 commits,重点集中在 serving 性能、异步调度、Intel XPU kernel、FP8/W8A8、MoE 与编译/融合路径。
关键细节
- v0.14.0 release notes 提到 async scheduling 默认启用,并包含约 660 commits、251 contributors。
- 近期条目覆盖 Intel XPU kernel、block_fp8_moe、block-scaled W8A8 FP8 path、GPTQ int4、rms_norm/activation quant fusion、GDN-attention MTP 等。
- Q2 roadmap 继续强调 PyTorch compilation integration、custom compile/fusion passes、kernel registration 与 compile-time caching。
为什么重要
vLLM 正在从“高吞吐 serving engine”演进为多硬件、多量化、多编译路径的生产推理层。对企业而言,模型能力之外,吞吐、稳定性和硬件可移植性正在决定真实部署成本。
5. NVIDIA DFlash:Blackwell 上最高 15x 推理解码加速的 speculative decoding 路线
NVIDIA Developer Blog 近日介绍 DFlash,在 Blackwell 上通过 block-diffusion speculative decoding 提升 decode 性能,宣称最高 15x。
关键细节
- DFlash 使用 PyTorch 与原生 CUDA,将 speculative decoding 从 token 级草稿扩展到 block-diffusion 风格。
- NVIDIA 将其定位为 Blackwell 上的推理吞吐优化,配合平台级 co-design 降低 token cost。
- 这类软件优化对长上下文、代码生成、agent loop 等高 decode 占比负载尤其重要。
为什么重要
芯片竞争不只看峰值 FLOPS;推理时代的瓶颈常在 memory、decode latency、batching 和调度。DFlash 代表 GPU 厂商用软件栈守住 inference economics 的方向。
其他值得关注
- 中国生态:智谱 GLM-5/GLM-5.2 进入开发者/API/开源节奏智谱开放文档已给出 GLM-5 调用示例、thinking 开关、max_tokens 65536 等接口细节;多方信息显示 GLM-5.2 近期聚焦 agentic coding 与开源权重。来源
- 中国生态:Qwen 继续推进模型与 Qwen Code 工具链Qwen 官方站展示 Qwen-Image、Qwen3 系列与 Qwen Code 文档;近期 Qwen Code 周报覆盖 LSP、batch runner、多语言、计划模式等 agentic coding 能力。来源
- DeepSeek:官方 GitHub 与推理适配仍是观察重点DeepSeek-V3 GitHub 页面继续记录 TensorRT-LLM 支持、BF16/INT4/INT8 weight-only、FP8 in progress 等部署信息;近期未发现 24 小时内官方新模型发布。来源
- llama.cpp:本地推理发行版持续高频更新ggml-org/llama.cpp releases 继续发布多平台二进制包,项目 README 强调 llama-server multimodal support;本地推理生态仍以小步快跑吸收新模型/后端。来源
- MCP:June 2026 spec 正在 RC/FINAL 里程碑推进modelcontextprotocol GitHub milestone 显示 June 2026 spec release 的 RC/FINAL 节点推进,并讨论 Skills over MCP 的 SDK 支持。来源
- GitHub Copilot:桌面 app GA 与 usage-based billing 后的 agent 分发GitHub Changelog 显示 Copilot app 已在 macOS/Windows/Linux GA,定位为 agent-driven development 桌面入口;6 月起计划和计费转向 AI Credits。来源
- 商业:OpenAI/Anthropic 走向 IPO 与 AI 服务并购链条Reuters 近期报道 OpenAI、Anthropic 均已推进 IPO/融资与服务公司收购相关动作,显示模型公司正向资本市场和企业落地服务链条扩张。来源