Daily AI Briefing · Beijing 06:30

AI 日报 | 2026-07-02

面向熟悉 AI、技术与商业读者的 24–48 小时要点:Agent/coding 工具补齐真实浏览器与可恢复执行链路;开源推理栈围绕 DeepSeek、MiniMax、GLM、Qwen 深度适配;中国模型厂商把长上下文、Tool Calling、多模态和 coding agent 作为主战场。

核心来源/条目:8 重点条目:5 覆盖:模型 · Agent · Infra · 中国生态

今日概览

  • GitHub Copilot 的 VS Code browser tools 已 GA,coding agent 可驱动真实浏览器并把观测结果带回对话。
  • OpenAI Codex CLI 发布 rust-v0.142.5,修复 Responses WebSocket trace 日志写入完整请求 payload 的问题。
  • Qwen Code 发布 v0.19.4,加入 auto-compact 阈值、不中断 turn 恢复、桌面语音输入与 Chrome extension/daemon-direct 改进。
  • vLLM v0.24.0 发布,571 commits/256 contributors,重点适配 MiniMax-M3、DeepSeek-V4、GLM-5.1、ROCm、SM120、XPU。
  • llama.cpp b9859 发布,OpenCL 支持从库加载预编译 binary kernels。
  • DeepSeek V4 Preview 与 Kimi K2.5 继续强调长上下文、双模式、多模态与 Tool Calling。

最重要 5 条

1

GitHub Copilot browser tools in VS Code GA:coding agent 终于获得“真实浏览器眼睛”

摘要:GitHub Changelog 在 2026-07-01 宣布 VS Code 中的 Copilot browser tools 正式 GA。Agents 可以驱动真实浏览器、导航 Web 应用,并把发现反馈回 chat。

关键细节:这不是简单网页抓取,而是面向开发调试场景的浏览器自动化能力:agent 能检查 UI、复现前端状态、观察页面行为,再把证据带回代码修改循环。GitHub 同时强调权限仍由用户控制,并保留既有网络域名控制。

为什么重要:AI coding 的瓶颈正在从“能不能改代码”转向“能不能验证真实产品行为”。浏览器工具 GA 意味着 Copilot 更接近端到端修 bug:读 issue → 改代码 → 打开页面 → 复现/验证 → 回写 PR。
AgentAI CodingGitHub Copilot

来源:GitHub Changelog

2

OpenAI Codex CLI 修复 trace 日志泄露请求 payload:coding agent 安全边界继续收紧

摘要:OpenAI Codex GitHub release rust-v0.142.5 于 2026-07-01 发布,核心 bug fix 是阻止完整 Responses WebSocket request payload 被写入 trace logs。

关键细节:Release note 指向 #30771,属于 backport 到 release/0.142 的 WebSocket trace 修复。对本地 coding agent,这类 payload 可能包含代码片段、prompt、环境上下文、工具调用内容或用户隐私数据。

为什么重要:企业采用 coding agent 时,日志治理和数据最小化已经和模型能力一样关键。Agent 越多地接触仓库、终端、浏览器、MCP 工具,trace/telemetry 就越可能成为泄露面。
OpenAICodexSecurity

来源:OpenAI Codex release

3

Qwen Code v0.19.4:国产 coding agent 栈继续补执行连续性与桌面入口

摘要:QwenLM/qwen-code v0.19.4 于 2026-07-01 发布,包含 daemon 文档更新、可配置 auto-compact threshold、Stop hook context usage、中断 turn 恢复、桌面语音输入,以及 Chrome extension 的 daemon-direct 架构回归。

关键细节:auto-compact 影响长上下文会话成本和稳定性;resume interrupted turn 避免通过合成“continue”消息破坏上下文;daemon/direct browser extension 暗示 Qwen Code 在 CLI、桌面和浏览器侧统一执行层。

为什么重要:Qwen 不只是在发模型,也在补“模型如何进入开发者工作流”的最后一公里。真正竞争会落在 CLI/IDE/浏览器/daemon 的协调、权限边界、上下文压缩和恢复能力上。
Qwen中国 AIAI Coding

来源:Qwen Code release

4

vLLM v0.24.0:推理基础设施继续围绕中美大模型做深度适配

摘要:vLLM v0.24.0 于 2026-06-29 发布,包含 571 commits、256 contributors,其中 77 位为新贡献者。Release highlights 指向 MiniMax-M3、DeepSeek-V4、Model Runner V2、AMD/ROCm、SM120、XPU 等优化。

关键细节:MiniMax-M3 获得 BF16/FP8 indexer、MXFP4、FP8 sparse GQA、AMD/ROCm tuning 等支持;DeepSeek-V4 获得 FlashInfer sparse index cache、prefill chunk planning、low-latency topK kernel、contiguous per-block KV allocations、SM120 enablement 等优化。

为什么重要:MoE、稀疏 attention、FP8/MXFP4、长上下文 KV cache、跨 NVIDIA/AMD/XPU 的 kernel 适配,会直接决定模型能否低成本进入生产。
InfravLLMDeepSeekMiniMax

来源:vLLM release

5

DeepSeek V4 Preview 与 Kimi K2.5:长上下文、双模式与 Tool Calling 成为中国模型标配

摘要:DeepSeek 官方 API docs 显示 DeepSeek-V4 Preview 已上线并开源,强调 1M context length、Thinking/Non-Thinking 双模式;Kimi 开放平台文档显示 Kimi K2.5 提供 256K 上下文、多模态理解和 Tool Calling。

关键细节:DeepSeek 文档列出 deepseek-v4-prodeepseek-v4-flash,并提示 deepseek-chatdeepseek-reasoner 将在 2026-07-24 15:59 UTC 后退役,兼容映射到 V4 Flash 的非思考/思考模式。

为什么重要:中国模型生态已经从“单轮聊天能力”转向“长上下文 + reasoning mode + tool calling + coding/agent workflow”。API 兼容、旧模型迁移窗口、上下文长度和工具调用稳定性,比单一 benchmark 更影响落地成本。
DeepSeekKimi中国 AITool Calling

来源:DeepSeek V4 PreviewKimi K2.5 quickstart

其他值得关注

llama.cpp b9859:OpenCL 预编译 kernel 加载

llama.cpp b9859 于 2026-07-01 发布,主要变更之一是 OpenCL 允许从 library 加载预编译 binary kernels,包括若干 MoE/GEMM kernel 路径。对本地推理和非 CUDA 设备来说,这类工作会扩大部署覆盖面。

来源:llama.cpp release

Qwen3-Coder:模型与 agent 工具链继续绑定

Qwen3-Coder README 指向 Hugging Face、ModelScope、Qwen Chat、WebDev、技术报告和 Qwen Code。它显示 Qwen 代码模型路线不是孤立 checkpoint,而是和 WebDev demo、CLI agent、文档、模型分发平台一起组织。

来源:Qwen3-Coder repo

DeepSeek API 迁移窗口值得提前处理

DeepSeek 文档明确提示 deepseek-chatdeepseek-reasoner 旧名将在 2026-07-24 后不可访问。仍在使用旧模型名的生产系统,应尽快迁移并显式测试 thinking/non-thinking 模式差异。

来源:DeepSeek Models & Pricing

来源链接

  1. GitHub Changelog — Browser tools for GitHub Copilot in VS Code are generally available
  2. OpenAI Codex release rust-v0.142.5
  3. Qwen Code release v0.19.4
  4. vLLM release v0.24.0
  5. llama.cpp release b9859
  6. DeepSeek V4 Preview Release
  7. DeepSeek Models & Pricing / deprecation note
  8. Kimi K2.5 API quickstart
  9. Qwen3-Coder GitHub repo