add

2025-11-28 16:30:27 +08:00 · 2025-11-28 16:30:27 +08:00 · 176b12c229
commit 176b12c229
parent b5f9670d85
1 changed files with 157 additions and 0 deletions
--- a/2025-W48-LLM.md
+++ b/2025-W48-LLM.md
@ -0,0 +1,157 @@
+# 2025年第48周 LLM 动态汇总
+
+## VLLM v0.11.1
+
+[Github的发行版说明](https://github.com/vllm-project/vllm/releases/tag/v0.11.1)
+
+### 核心特性
+
+升级至 PyTorch 2.9.0 + CUDA 12.9.1，默认启用 FlashInfer，强化 batch-invariant torch.compile 支持（覆盖 Hopper/Blackwell GPU），并改进异步调度稳定性，预计下版本默认开启 --async-scheduling。同时新增 Anthropic /v1/messages API 兼容。
+
+### 关键 Bug 修复
+
+Qwen3-VL 多模态推理、DeepSeek 系列模型 MoE/MLA 内核与权重加载、FlashInfer 与 Cascade Attention 兼容性、异步调度与优先级调度组合下的正确性问题、多节点部署中 KV 缓存同步异常，以及 FP8/INT8 量化在 Blackwell GPU 上的精度与兼容性问题。此外还修复了 LoRA、CPU 后端、ROCm 平台等多个模块的稳定性问题。
+
+### 对 GPT-OSS 模型的支持
+
+- 修复 gpt-oss + 推测解码（speculative decoding）的流式生成器问题
+- 禁用工具服务器初始化（当请求中无工具时），避免不必要的开销或错误
+- 在 CI 中启用 Python 工具测试，提升 gpt-oss 工具调用的可靠性
+- 使用 vLLM 类型替代 OpenAI 类型进行流式响应，提升类型一致性与兼容性
+- 修复 DP/EP 模式下使用 Marlin 内核运行 gpt-oss 的支持问题
+
+> 💡最新版本 [v0.11.2](https://github.com/vllm-project/vllm/releases/tag/v0.11.2) 
+
+
+## Spring AI 1.1.0 版本解读
+
+### 增强对 MCP 的支持
+
+改进了原本的 @Tool 实现**统一工具、资源、提示模板**的注册与调用方式，通过三个核心注解简化
+
+```java
+@McpTool
+public String getCurrentWeather(String location) {
+    return weatherService.fetch(location); // 调用外部天气 API
+}
+
+@McpResource
+public String getDatabaseSchema() {
+    return dbConnector.getSchema(); // 获取数据库结构
+}
+
+@McpPrompt
+public String generateSqlQuery(String userIntent) {
+    return sqlGenerator.create(userIntent); // 根据用户意图生成 SQL
+}
+```
+
+**支持3种协议**
+
+- STDIO：本地进程通信（适合 CLI 工具）
+- SSE：实时流式交互
+- Streamable：支持状态保持的复杂会话
+
+### 支持 Prompt 缓存
+
+该功能主要适配**Anthropic、AWS Bedrock**模型提供商最新提出的**在模型侧缓存提示词**的能力，**适合系统提示词，或工具的定义**，降低客户的 token 使用成本，模型响应速度也会更快一些。Spring AI 遵循 Anthropic 官方最佳实践，支持 **TTL 配置**（5 分钟 / 1 小时）支持 **5 种缓存策略** 比如：仅缓存系统消息、工具定义等。详见[官方文档](https://docs.spring.io/spring-ai/reference/index.html)
+
+### 多厂商推理模式原生支持
+
+无需额外封装，即可调用主流模型的高级参数。
+
+| 模型提供商        | 新增能力 |
+|-------------|--------|
+| Ollama   | `effort` 参数控制（兼容 OpenAI 接口） |
+| 智谱 | `thinking` 和 `response_format` 参数 |
+| Anthropic/OpenAI | 流式推理 + `ReasoningContent` API（可观察模型“思考过程”） |
+
+### Recursive Advisor
+
+递归式 Advisor 支持 **链式调用**，可构建多步骤工作流，支持 **监控与调试**，可实现 **LLM-as-a-Judge** 自动评估系统，迭代优化输出质量，有点类似于**反思智能体的意思**
+
+### 新增2个模型提供商支持
+
+- **Google GenAI SDK**
+  - 支持 **Gemini Pro / 1.5 Pro / 2.0 Flash**
+  - 双认证：API Key + Google Cloud 凭证
+  - 提供聊天、文本嵌入、缓存内容 API
+- **ElevenLabs（语音合成）**
+  - 流式音频生成
+  - 多音色、多格式（MP3/WAV/OGG）
+  - 与 OpenAI TTS 共享 `TextToSpeechModel` 接口，API 风格一致
+
+### 增强对现有模型提供商的支持
+
+| 模型提供商 | 新增支持 |
+|------|--------|
+| **OpenAI** | GPT-5 / GPT-5-mini / GPT-5-nano；文件上传；TTS/转录 |
+| **Anthropic** | Claude Sonnet 4.5 / Opus 4.1；引用 API；工具调用精细控制 |
+| **智谱 AI** | GLM-4.6 / 4.5 / Z1；推理模式；国际站点 |
+| **Mistral AI** | OCR（图片/文档文字提取）；Codestral Embed 向量模型 |
+
+
+### 向量存储增强（RAG 场景优化）
+
+- **MariaDB Vector Store**：完整支持相似度评分
+- **OpenSearch**：性能优化的近似 k-NN 搜索
+- **GemFire**：支持元数据过滤的相似度搜索
+- **Weaviate**：增强字段自定义（如 `meta_prefix`, `content_field`）
+
+### 新增三种聊天记忆持久化存储方案
+
+- **MongoDB**
+- **Oracle JDBC**
+- **Azure Cosmos DB**
+
+### 可观测性提升
+
+- 集成 **Micrometer Observability**
+- 优化上下文传播与日志记录
+- 提供 **Prometheus + OpenTelemetry** 指标映射指南
+
+### 未来规划
+
+- 短期：维护 `1.1.1-SNAPSHOT`，修复关键 bug
+- 长期：主干升级至 **Spring AI 2.0.0-SNAPSHOT**，适配 **Spring Framework 7 + Spring Boot 4.0**
+
+
+## Spring AI Alibaba
+
+暂未发布 1.1.0.0 正式版，目前最新版本仍是2周前发布的 1.1.1.0-M5 版本。
+
+### 1.1.0.0 的主要特性
+
+聚焦基于 **ReactAgent** 的 **Agentic AI** 智能体开发：
+
+- Agent Framework：构建 **Agentic** 或 **Workflow** 范式的智能体编排框架
+- Graph：智能体编排框架的底层支持
+
+> 💡目前社区正在围绕 Spring AI 1.1.0 的新特性与 Higress 网关进行开发与适配，关于 nacos 的 mcp 与 a2a 注册发现，也在同步适配当中。
+
+### 社区提供的一些文档
+
+- [SAA-1.1版本全面解读](https://mp.weixin.qq.com/s/JO3Ao7k5jonalsccnMm5JA)
+- [SAA核心开发者之一的个人笔记，此人也是官方文档撰写者之一](https://ai.feishu.cn/wiki/TClTwpZJViSUq8krjrJcxAx7ngf)
+
+> 💡[RocketMQ-面向异步化 Agent 的事件驱动架构](https://www.bilibili.com/video/BV16GUaB5Evp)
+
+### SAA未来的规划
+
+将 **Agentic** 智能体的 **Runtime** 从 **Graph** 替换成**通义实验室**开源的 **AgentScope**。
+
+## AgentScope
+
+与 SAA 的区别：
+
+| SAA | AgentScope |
+|:-----|:-----|
+| 基于 Spring AI | 自主研发 |
+| 支持 Workflow 和 Agentic 两种范式的智能体编排 | 以 Agentic 为核心理念 |
+
+支持与下面三个智能体开发框架集成
+- [Ango](https://github.com/agno-agi/agno)
+- [autogen](https://github.com/microsoft/autogen)
+- [LangGraph](https://github.com/langchain-ai/langgraph) 
+
+> 💡SAA 的团队正在基于 **AgentScope** 构建 [agentscope-java](https://github.com/agentscope-ai/agentscope-java/blob/main/README_zh.md)