AI 日报 | 2026-07-01

今日概览

OpenAI 用内部与外部使用数据强调 Codex/agents 的非开发者扩散：早至 2026 年 6 月，个人非开发者用户较 2025 年 8 月增长 137 倍，组织非开发者用户增长 189 倍。
Google DeepMind 发布/更新 Gemini 2.5 Computer Use model，明确面向 Playwright、Browserbase、Vertex AI 等浏览器 agent loop。
Anthropic 把 Claude agent 模板打进金融服务工作流：pitchbook、KYC、month-end close、Office/Microsoft 365 add-ins、connectors 与 MCP app 组合。
推理与算力方面，OpenAI/Broadcom Jalapeño、NVIDIA GB300 on Azure、vLLM 0.24.0、llama.cpp b9850/b9851 构成同一条线。
中国 AI 生态今天的确定性信号集中在 Qwen Code、GLM-5.2 文档、Kimi Code、DeepSeek-V4 在 serving 框架中的消化。

最重要 5 条

1OpenAI：agents 正从开发者扩散到非开发者工作流

摘要：OpenAI 发布《How agents are transforming work》，用 Codex/agent 使用数据说明 agents 已经进入更复杂、长程、跨职能任务。搜索索引与媒体摘要显示，早至 2026 年 6 月，个人非开发者用户较 2025 年 8 月增长 137 倍，组织非开发者用户增长 189 倍。

关键细节：场景从纯 coding 扩展到研究、运营、招聘、法务、产品等跨职能任务；外部报道同时指出 OpenAI 声称大多数员工已在使用 agents。需要注意，OpenAI 的数据是自披露性质，不能等同于第三方生产率审计。

为什么重要：agent 市场叙事从“程序员提效”转向“知识工作自动化”。竞争焦点会从 IDE/CLI 体验扩展到权限、审计、上下文接入、组织策略和任务交接。

来源：OpenAI

2Google DeepMind 推进 Gemini 2.5 Computer Use

摘要：Google DeepMind 页面显示《Introducing the Gemini 2.5 Computer Use model》，面向能够操作浏览器/界面的 agent。官方建议开发者用本地 Playwright 或云端 Browserbase 构建 agent loop，并指向 Vertex AI 文档用于企业场景。

关键细节：Computer Use model 的关键是把模型嵌入观察—决策—动作循环：读取页面状态、决定下一步、调用浏览器动作，再持续校正。

为什么重要：Web/GUI 自动化是 agent 落地的高价值场景，因为大量企业系统没有稳定 API，或 API 覆盖不了真实工作流。它会直接影响 RPA、测试、数据录入、运营后台和客服工具链。

来源：Google DeepMind

3Anthropic 发布金融服务 agent 模板

摘要：Anthropic 发布 10 个 ready-to-run financial services agent templates，覆盖 pitchbooks、KYC file screening、month-end close 等高耗时任务。模板可作为 Claude Cowork、Claude Code 插件，或 Claude Managed Agents cookbooks 使用。

关键细节：每个模板打包 skills、connectors、subagents；Claude add-ins for Microsoft 365 可跨 Excel、PowerPoint、Word、Outlook 传递上下文；Anthropic 称 Claude Opus 4.7 在 Vals AI Finance Agent benchmark 上达到 64.37%。

为什么重要：企业 agent 的销售方式正在从“模型/API”转向“可改造行业 reference architecture”。金融场景对权限、出处、可解释性、Office 文档流和审计极其敏感。

来源：Anthropic

4推理基础设施分化：Jalapeño 与 GB300 on Azure

摘要：OpenAI 与 Broadcom 近日公布 Jalapeño LLM-optimized inference chip；NVIDIA 宣布 Anthropic Claude 模型在 Microsoft Foundry/Azure 上通过 NVIDIA GB300 Blackwell Ultra GPU 一般可用。

关键细节：Jalapeño 定位为面向 LLM inference 的定制 processor；NVIDIA/Azure 侧，GB300 Blackwell Ultra 被用于 Azure-native 企业构建 autonomous/domain-specific AI agents，涉及 GB300 NVL72、Quantum-X800 InfiniBand 等 AI factory 级系统设计。

为什么重要：长程 agents 会产生更多上下文读写、工具调用、重试、并行 subagents 与审计日志，单位任务成本不再等同于一次 chat completion。垂直整合 ASIC 与高端通用 GPU 平台会并行竞争。

来源：OpenAI · Broadcom · NVIDIA

5中国/开源 serving 栈继续加速

摘要：vLLM 0.24.0 在 6 月 29 日发布，包含 571 commits、256 contributors，重点加入 MiniMax-M3 支持并继续优化 DeepSeek-V4；llama.cpp 6 月 30 日 b9850/b9851 连续发布；Qwen Code v0.19.3-nightly 在 6 月 30 日发布多项 agent/daemon/CLI 改动。

关键细节：vLLM 涉及 MiniMax-M3、BF16/FP8 indexer、MXFP4、FP8 sparse GQA、AMD/ROCm tuning、MI300X、FP8 KV-cache；DeepSeek-V4 获得 FlashInfer sparse index cache、prefill chunk-planning、cluster-cooperative topK、contiguous KV allocation、native DSA indexer decode 等优化。Z.AI 文档突出 GLM-5.2 的 1M lossless context 与 long-horizon Coding Agent 训练。

为什么重要：中国模型生态的竞争越来越工程化。DeepSeek、MiniMax、Qwen、GLM、Kimi 等能否被 vLLM、llama.cpp、CLI agents、MCP/daemon/workflow 工具快速吸收，决定了真实开发者和企业基础设施中的可用性。

来源：vLLM · llama.cpp b9850 · llama.cpp b9851 · Qwen Code · GLM-5.2

其他值得关注

Qwen Code 继续把 terminal agent 做成完整开发环境

Qwen Code 文档主页展示了 SubAgents、Agent Arena、Skills、Memory、Headless Mode、Approval Mode、MCP、LSP、Token Caching、Sandboxing、i18n、多平台 channels、Scheduled Tasks、Auto Mode、Structured Output、Worktrees、daemon mode、SDK 与 permission mediation。6 月 30 日 nightly release 继续围绕中断恢复、shell 检查、daemon docs 与 PR review timeout 迭代。

来源：Qwen Code Docs · GitHub Releases

Kimi Code/Kimi CLI 在 6 月仍围绕下一代 agent CLI 迭代

MoonshotAI 的 Kimi Code/Kimi CLI 文档与 release 页面显示，Kimi Code CLI 定位为“Next-Gen Agents”的入口，6 月版本包括新 Kimi Code 迁移、sub-skill discovery、CLI 版本更新等。近 24–48 小时内没有看到同级别官方大版本说明，但仍是中国 AI coding agent 生态中需要持续跟踪的工具链。

来源：Kimi Code Changelog · GitHub Releases

DeepSeek-V4 新闻周期已过，但 serving 适配仍在持续

DeepSeek 官方 API docs 显示 DeepSeek-V4 Preview 于 2026-04-24 发布，核心标签是 open-sourced 与 cost-effective 1M context length。今天的新增价值不在 DeepSeek 官方模型更新，而在 vLLM/llama.cpp 等基础设施对 DeepSeek-V4 的持续优化。

来源：DeepSeek V4 Preview · DeepSeek Updates

Cloudflare Temporary Accounts for Agents 仍值得跟踪

Cloudflare 6 月 19 日发布 Temporary Cloudflare Accounts for Agents，允许 agent 运行 wrangler deploy --temporary 快速获得 live Worker，绕过为人类设计的注册、OAuth、dashboard 与 token 复制流程，用于 write → deploy → verify 闭环。

来源：Cloudflare Blog

商业侧：Qualcomm 收购 Modular 是 AI compiler/runtime 栈的重要信号

Reuters 6 月 24 日报道 Qualcomm 将以约 40 亿美元收购 AI startup Modular。虽然不是过去 24 小时内发生，但仍是近周期最值得纳入的 AI infra/M&A 信号之一：Modular 围绕 Mojo、MAX、AI compiler/runtime 与跨硬件部署，正好处在“模型到芯片之间”的关键层。

来源：Reuters