doc/md

Fork 0

ls 1533aa5282 add

2025-11-28 16:33:06 +08:00

6.3 KiB

Raw Blame History

2025年第48周 LLM 动态汇总

VLLM v0.11.1

Github的发行版说明

核心特性

升级至 PyTorch 2.9.0 + CUDA 12.9.1，默认启用 FlashInfer，强化 batch-invariant torch.compile 支持（覆盖 Hopper/Blackwell GPU），并改进异步调度稳定性，预计下版本默认开启 --async-scheduling。同时新增 Anthropic /v1/messages API 兼容。

关键 Bug 修复

Qwen3-VL 多模态推理、DeepSeek 系列模型 MoE/MLA 内核与权重加载、FlashInfer 与 Cascade Attention 兼容性、异步调度与优先级调度组合下的正确性问题、多节点部署中 KV 缓存同步异常，以及 FP8/INT8 量化在 Blackwell GPU 上的精度与兼容性问题。此外还修复了 LoRA、CPU 后端、ROCm 平台等多个模块的稳定性问题。

对 GPT-OSS 模型的支持

修复 gpt-oss + 推测解码（speculative decoding）的流式生成器问题
禁用工具服务器初始化（当请求中无工具时），避免不必要的开销或错误
在 CI 中启用 Python 工具测试，提升 gpt-oss 工具调用的可靠性
使用 vLLM 类型替代 OpenAI 类型进行流式响应，提升类型一致性与兼容性
修复 DP/EP 模式下使用 Marlin 内核运行 gpt-oss 的支持问题

💡最新版本 v0.11.2

Spring AI 1.1.0 版本解读

增强对 MCP 的支持

改进了原本的 @Tool 实现统一工具、资源、提示模板的注册与调用方式，通过三个核心注解简化

@McpTool
public String getCurrentWeather(String location) {
    return weatherService.fetch(location); // 调用外部天气 API
}

@McpResource
public String getDatabaseSchema() {
    return dbConnector.getSchema(); // 获取数据库结构
}

@McpPrompt
public String generateSqlQuery(String userIntent) {
    return sqlGenerator.create(userIntent); // 根据用户意图生成 SQL
}

支持3种协议

STDIO：本地进程通信（适合 CLI 工具）
SSE：实时流式交互
Streamable：支持状态保持的复杂会话

支持 Prompt 缓存

该功能主要适配Anthropic、AWS Bedrock模型提供商最新提出的在模型侧缓存提示词的能力，适合系统提示词，或工具的定义，降低客户的 token 使用成本，模型响应速度也会更快一些。Spring AI 遵循 Anthropic 官方最佳实践，支持 TTL 配置（5 分钟 / 1 小时）支持 5 种缓存策略 比如：仅缓存系统消息、工具定义等。详见官方文档

多厂商推理模式原生支持

无需额外封装，即可调用主流模型的高级参数。

模型提供商	新增能力
Ollama	`effort` 参数控制（兼容 OpenAI 接口）
智谱	`thinking` 和 `response_format` 参数
Anthropic/OpenAI	流式推理 + `ReasoningContent` API（可观察模型“思考过程”）

Recursive Advisor

递归式 Advisor 支持 链式调用，可构建多步骤工作流，支持 监控与调试，可实现 LLM-as-a-Judge 自动评估系统，迭代优化输出质量，有点类似于反思智能体的意思

新增2个模型提供商支持

Google GenAI SDK
- 支持 Gemini Pro / 1.5 Pro / 2.0 Flash
- 双认证：API Key + Google Cloud 凭证
- 提供聊天、文本嵌入、缓存内容 API
ElevenLabs（语音合成）
- 流式音频生成
- 多音色、多格式（MP3/WAV/OGG）
- 与 OpenAI TTS 共享 TextToSpeechModel 接口，API 风格一致

增强对现有模型提供商的支持

模型提供商	新增支持
OpenAI	GPT-5 / GPT-5-mini / GPT-5-nano；文件上传；TTS/转录
Anthropic	Claude Sonnet 4.5 / Opus 4.1；引用 API；工具调用精细控制
智谱 AI	GLM-4.6 / 4.5 / Z1；推理模式；国际站点
Mistral AI	OCR（图片/文档文字提取）；Codestral Embed 向量模型

向量存储增强（RAG 场景优化）

MariaDB Vector Store：完整支持相似度评分
OpenSearch：性能优化的近似 k-NN 搜索
GemFire：支持元数据过滤的相似度搜索
Weaviate：增强字段自定义（如 meta_prefix, content_field）

新增三种聊天记忆持久化存储方案

MongoDB
Oracle JDBC
Azure Cosmos DB

可观测性提升

集成 Micrometer Observability
优化上下文传播与日志记录
提供 Prometheus + OpenTelemetry 指标映射指南

未来规划

短期：维护 1.1.1-SNAPSHOT，修复关键 bug
长期：主干升级至 Spring AI 2.0.0-SNAPSHOT，适配 Spring Framework 7 + Spring Boot 4.0

Spring AI Alibaba

暂未发布 1.1.0.0 正式版，目前最新版本仍是2周前发布的 1.1.1.0-M5 版本。

1.1.0.0 的主要特性

聚焦基于 ReactAgent 的 Agentic AI 智能体开发：

Agent Framework：构建 Agentic 或 Workflow 范式的智能体编排框架
Graph：智能体编排框架的底层支持

💡目前社区正在围绕 Spring AI 1.1.0 的新特性与 Higress 网关进行开发与适配，关于 nacos 的 mcp 与 a2a 注册发现，也在同步适配当中。

社区提供的一些文档

SAA未来的规划

将 Agentic 智能体的 Runtime 从 Graph 替换成通义实验室开源的 AgentScope。

AgentScope

SAA	AgentScope
基于 Spring AI	阿里巴巴自主研发
支持 Workflow 和 Agentic 两种范式的智能体编排	以 Agentic 为核心理念

支持与下面三个智能体开发框架集成

💡SAA 的团队正在基于 AgentScope 构建 agentscope-java

6.3 KiB Raw Blame History Unescape Escape