AI 日报 | 2026-07-02

今日概览

GitHub Copilot 的 VS Code browser tools 已 GA，coding agent 可驱动真实浏览器并把观测结果带回对话。
OpenAI Codex CLI 发布 rust-v0.142.5，修复 Responses WebSocket trace 日志写入完整请求 payload 的问题。
Qwen Code 发布 v0.19.4，加入 auto-compact 阈值、不中断 turn 恢复、桌面语音输入与 Chrome extension/daemon-direct 改进。
vLLM v0.24.0 发布，571 commits/256 contributors，重点适配 MiniMax-M3、DeepSeek-V4、GLM-5.1、ROCm、SM120、XPU。
llama.cpp b9859 发布，OpenCL 支持从库加载预编译 binary kernels。
DeepSeek V4 Preview 与 Kimi K2.5 继续强调长上下文、双模式、多模态与 Tool Calling。

最重要 5 条

GitHub Copilot browser tools in VS Code GA：coding agent 终于获得“真实浏览器眼睛”

摘要：GitHub Changelog 在 2026-07-01 宣布 VS Code 中的 Copilot browser tools 正式 GA。Agents 可以驱动真实浏览器、导航 Web 应用，并把发现反馈回 chat。

关键细节：这不是简单网页抓取，而是面向开发调试场景的浏览器自动化能力：agent 能检查 UI、复现前端状态、观察页面行为，再把证据带回代码修改循环。GitHub 同时强调权限仍由用户控制，并保留既有网络域名控制。

为什么重要：AI coding 的瓶颈正在从“能不能改代码”转向“能不能验证真实产品行为”。浏览器工具 GA 意味着 Copilot 更接近端到端修 bug：读 issue → 改代码 → 打开页面 → 复现/验证 → 回写 PR。

AgentAI CodingGitHub Copilot

来源：GitHub Changelog

OpenAI Codex CLI 修复 trace 日志泄露请求 payload：coding agent 安全边界继续收紧

摘要：OpenAI Codex GitHub release rust-v0.142.5 于 2026-07-01 发布，核心 bug fix 是阻止完整 Responses WebSocket request payload 被写入 trace logs。

关键细节：Release note 指向 #30771，属于 backport 到 release/0.142 的 WebSocket trace 修复。对本地 coding agent，这类 payload 可能包含代码片段、prompt、环境上下文、工具调用内容或用户隐私数据。

为什么重要：企业采用 coding agent 时，日志治理和数据最小化已经和模型能力一样关键。Agent 越多地接触仓库、终端、浏览器、MCP 工具，trace/telemetry 就越可能成为泄露面。

OpenAICodexSecurity

来源：OpenAI Codex release

Qwen Code v0.19.4：国产 coding agent 栈继续补执行连续性与桌面入口

摘要：QwenLM/qwen-code v0.19.4 于 2026-07-01 发布，包含 daemon 文档更新、可配置 auto-compact threshold、Stop hook context usage、中断 turn 恢复、桌面语音输入，以及 Chrome extension 的 daemon-direct 架构回归。

关键细节：auto-compact 影响长上下文会话成本和稳定性；resume interrupted turn 避免通过合成“continue”消息破坏上下文；daemon/direct browser extension 暗示 Qwen Code 在 CLI、桌面和浏览器侧统一执行层。

为什么重要：Qwen 不只是在发模型，也在补“模型如何进入开发者工作流”的最后一公里。真正竞争会落在 CLI/IDE/浏览器/daemon 的协调、权限边界、上下文压缩和恢复能力上。

Qwen中国 AIAI Coding

来源：Qwen Code release

vLLM v0.24.0：推理基础设施继续围绕中美大模型做深度适配

摘要：vLLM v0.24.0 于 2026-06-29 发布，包含 571 commits、256 contributors，其中 77 位为新贡献者。Release highlights 指向 MiniMax-M3、DeepSeek-V4、Model Runner V2、AMD/ROCm、SM120、XPU 等优化。

关键细节：MiniMax-M3 获得 BF16/FP8 indexer、MXFP4、FP8 sparse GQA、AMD/ROCm tuning 等支持；DeepSeek-V4 获得 FlashInfer sparse index cache、prefill chunk planning、low-latency topK kernel、contiguous per-block KV allocations、SM120 enablement 等优化。

为什么重要：MoE、稀疏 attention、FP8/MXFP4、长上下文 KV cache、跨 NVIDIA/AMD/XPU 的 kernel 适配，会直接决定模型能否低成本进入生产。

InfravLLMDeepSeekMiniMax

来源：vLLM release

DeepSeek V4 Preview 与 Kimi K2.5：长上下文、双模式与 Tool Calling 成为中国模型标配

摘要：DeepSeek 官方 API docs 显示 DeepSeek-V4 Preview 已上线并开源，强调 1M context length、Thinking/Non-Thinking 双模式；Kimi 开放平台文档显示 Kimi K2.5 提供 256K 上下文、多模态理解和 Tool Calling。

关键细节：DeepSeek 文档列出 deepseek-v4-pro 与 deepseek-v4-flash，并提示 deepseek-chat、deepseek-reasoner 将在 2026-07-24 15:59 UTC 后退役，兼容映射到 V4 Flash 的非思考/思考模式。

为什么重要：中国模型生态已经从“单轮聊天能力”转向“长上下文 + reasoning mode + tool calling + coding/agent workflow”。API 兼容、旧模型迁移窗口、上下文长度和工具调用稳定性，比单一 benchmark 更影响落地成本。

DeepSeekKimi中国 AITool Calling

来源：DeepSeek V4 Preview；Kimi K2.5 quickstart

其他值得关注

llama.cpp b9859：OpenCL 预编译 kernel 加载

llama.cpp b9859 于 2026-07-01 发布，主要变更之一是 OpenCL 允许从 library 加载预编译 binary kernels，包括若干 MoE/GEMM kernel 路径。对本地推理和非 CUDA 设备来说，这类工作会扩大部署覆盖面。

来源：llama.cpp release

Qwen3-Coder：模型与 agent 工具链继续绑定

Qwen3-Coder README 指向 Hugging Face、ModelScope、Qwen Chat、WebDev、技术报告和 Qwen Code。它显示 Qwen 代码模型路线不是孤立 checkpoint，而是和 WebDev demo、CLI agent、文档、模型分发平台一起组织。

来源：Qwen3-Coder repo

DeepSeek API 迁移窗口值得提前处理

DeepSeek 文档明确提示 deepseek-chat 和 deepseek-reasoner 旧名将在 2026-07-24 后不可访问。仍在使用旧模型名的生产系统，应尽快迁移并显式测试 thinking/non-thinking 模式差异。

来源：DeepSeek Models & Pricing