1
0
md/2025W48.md
2025-11-28 16:45:08 +08:00

152 lines
6.3 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 2025年第48周 LLM 动态汇总
## VLLM
- 质量更新 [v0.11.1](https://github.com/vllm-project/vllm/releases/tag/v0.11.1)
- 最新版本4个bug修复[v0.11.2](https://github.com/vllm-project/vllm/releases/tag/v0.11.2)
### 核心特性
升级至 PyTorch 2.9.0 + CUDA 12.9.1,默认启用 FlashInfer强化 batch-invariant torch.compile 支持(覆盖 Hopper/Blackwell GPU并改进异步调度稳定性预计下版本默认开启 --async-scheduling。同时新增 Anthropic /v1/messages API 兼容。
### 关键 Bug 修复
Qwen3-VL 多模态推理、DeepSeek 系列模型 MoE/MLA 内核与权重加载、FlashInfer 与 Cascade Attention 兼容性、异步调度与优先级调度组合下的正确性问题、多节点部署中 KV 缓存同步异常,以及 FP8/INT8 量化在 Blackwell GPU 上的精度与兼容性问题。此外还修复了 LoRA、CPU 后端、ROCm 平台等多个模块的稳定性问题。
### 对 GPT-OSS 模型的支持
- 修复 gpt-oss + 推测解码speculative decoding的流式生成器问题
- 禁用工具服务器初始化(当请求中无工具时),避免不必要的开销或错误
- 在 CI 中启用 Python 工具测试,提升 gpt-oss 工具调用的可靠性
- 使用 vLLM 类型替代 OpenAI 类型进行流式响应,提升类型一致性与兼容性
- 修复 DP/EP 模式下使用 Marlin 内核运行 gpt-oss 的支持问题
## Spring AI 1.1.0 版本解读
### 增强对 MCP 的支持
改进了原本的 @Tool 实现**统一工具、资源、提示模板**的注册与调用方式,通过三个核心注解简化
```java
@McpTool
public String getCurrentWeather(String location) {
return weatherService.fetch(location); // 调用外部天气 API
}
@McpResource
public String getDatabaseSchema() {
return dbConnector.getSchema(); // 获取数据库结构
}
@McpPrompt
public String generateSqlQuery(String userIntent) {
return sqlGenerator.create(userIntent); // 根据用户意图生成 SQL
}
```
**支持3种协议**
- STDIO本地进程通信适合 CLI 工具)
- SSE实时流式交互
- Streamable支持状态保持的复杂会话
### 支持 Prompt 缓存
该功能主要适配**Anthropic、AWS Bedrock**模型提供商最新提出的**在模型侧缓存提示词**的能力,**适合系统提示词,或工具的定义**,降低客户的 token 使用成本模型响应速度也会更快一些。Spring AI 遵循 Anthropic 官方最佳实践,支持 **TTL 配置**5 分钟 / 1 小时)支持 **5 种缓存策略** 比如:仅缓存系统消息、工具定义等。详见[官方文档](https://docs.spring.io/spring-ai/reference/index.html)
### 多厂商推理模式原生支持
无需额外封装,即可调用主流模型的高级参数。
| 模型提供商 | 新增能力 |
|-------------|--------|
| Ollama | `effort` 参数控制(兼容 OpenAI 接口) |
| 智谱 | `thinking``response_format` 参数 |
| Anthropic/OpenAI | 流式推理 + `ReasoningContent` API可观察模型“思考过程” |
### Recursive Advisor
递归式 Advisor 支持 **链式调用**,可构建多步骤工作流,支持 **监控与调试**,可实现 **LLM-as-a-Judge** 自动评估系统,迭代优化输出质量,有点类似于**反思智能体的意思**
### 新增2个模型提供商支持
- **Google GenAI SDK**
- 支持 **Gemini Pro / 1.5 Pro / 2.0 Flash**
- 双认证API Key + Google Cloud 凭证
- 提供聊天、文本嵌入、缓存内容 API
- **ElevenLabs语音合成**
- 流式音频生成
- 多音色、多格式MP3/WAV/OGG
- 与 OpenAI TTS 共享 `TextToSpeechModel` 接口API 风格一致
### 增强对现有模型提供商的支持
| 模型提供商 | 新增支持 |
|------|--------|
| **OpenAI** | GPT-5 / GPT-5-mini / GPT-5-nano文件上传TTS/转录 |
| **Anthropic** | Claude Sonnet 4.5 / Opus 4.1;引用 API工具调用精细控制 |
| **智谱 AI** | GLM-4.6 / 4.5 / Z1推理模式国际站点 |
| **Mistral AI** | OCR图片/文档文字提取Codestral Embed 向量模型 |
### 向量存储增强RAG 场景优化)
- **MariaDB Vector Store**:完整支持相似度评分
- **OpenSearch**:性能优化的近似 k-NN 搜索
- **GemFire**:支持元数据过滤的相似度搜索
- **Weaviate**:增强字段自定义(如 `meta_prefix`, `content_field`
### 新增三种聊天记忆持久化存储方案
- **MongoDB**
- **Oracle JDBC**
- **Azure Cosmos DB**
### 可观测性提升
- 集成 **Micrometer Observability**
- 优化上下文传播与日志记录
- 提供 **Prometheus + OpenTelemetry** 指标映射指南
### 未来规划
- 短期:维护 `1.1.1-SNAPSHOT`,修复关键 bug
- 长期:主干升级至 **Spring AI 2.0.0-SNAPSHOT**,适配 **Spring Framework 7 + Spring Boot 4.0**
## Spring AI Alibaba
暂未发布 1.1.0.0 正式版目前最新版本仍是2周前发布的 1.1.1.0-M5 版本。
### 1.1.0.0 的主要特性
聚焦基于 **ReactAgent****Agentic AI** 智能体开发:
- Agent Framework构建 **Agentic****Workflow** 范式的智能体编排框架
- Graph智能体编排框架的底层支持
> 💡目前社区正在围绕 Spring AI 1.1.0 的新特性与 Higress 网关进行开发与适配,关于 nacos 的 mcp 与 a2a 注册发现,也在同步适配当中。
### 社区提供的一些文档
- [SAA-1.1版本全面解读](https://mp.weixin.qq.com/s/JO3Ao7k5jonalsccnMm5JA)
- [SAA核心开发者之一的个人笔记此人也是官方文档撰写者之一](https://ai.feishu.cn/wiki/TClTwpZJViSUq8krjrJcxAx7ngf)
- [RocketMQ-面向异步化 Agent 的事件驱动架构](https://www.bilibili.com/video/BV16GUaB5Evp)
### SAA未来的规划
**Agentic** 智能体的 **Runtime****Graph** 替换成**通义实验室**开源的 **AgentScope**
## AgentScope
| SAA | AgentScope |
|:-----|:-----|
| 基于 Spring AI | 阿里巴巴自主研发 |
| 支持 Workflow 和 Agentic 两种范式的智能体编排 | 以 Agentic 为核心理念 |
支持与下面三个智能体开发框架集成
- [Ango](https://github.com/agno-agi/agno)
- [autogen](https://github.com/microsoft/autogen)
- [LangGraph](https://github.com/langchain-ai/langgraph)
> 💡SAA 的团队正在基于 **AgentScope** 构建 [agentscope-java](https://github.com/agentscope-ai/agentscope-java/blob/main/README_zh.md)