第一个版本

This commit is contained in:
2026-01-11 04:23:23 +08:00
parent c160320892
commit b7d1c4064f

View File

@@ -1,18 +1,34 @@
# LLM Proxy - OpenAI API 代理和训练数据收集工具
一个透明的 HTTP 代理服务器,用于拦截和保存 LLM API 请求,自动导出为 JSONL 格式的训练数据。
一个透明的 HTTP 代理服务器,用于拦截和保存 LLM API 请求,自动导出为 JSONL 格式的训练数据。项目仓库:
## 功能特性
https://gitea.spdis.space/spdis/LLMPoxy.git
## 功能特性(当前状态)
-**透明代理**:拦截所有 `/v1/` 开头的 LLM API 请求
-**零配置**:无需在代理中配置 API Key直接使用客户端的 Key
-**多提供商支持**:支持 OpenAI、Anthropic、GLM、OpenRouter 等所有 OpenAI 兼容的 API
-**多提供商支持(标准 OpenAI 兼容)**:支持 OpenAI / DeepSeek / OpenRouter 等标准 OpenAI 接口
-**智能解析**:自动识别和解析 LLM 请求,忽略其他请求
-**思考过程保存**自动保存模型的推理内容reasoning
-**多轮对话支持**:完整保存对话上下文
-**多轮对话支持Cherry Studio 已实战验证)**:自动根据首个 system + 首轮 user 推断对话 ID将多次请求归并为同一条对话
-**JSONL 导出**:一键导出为标准训练数据格式
-**SQLite 存储**:轻量级数据库,无需额外配置
## 已完成的支持
- ✅ Cherry Studio 这类“每次请求带完整 history”的 OpenAI API 调用范式:
- 自动识别多轮对话并归并 conversation
- 完整捕获系统提示词、用户消息、思考过程reasoning / reasoning_content、工具调用tool_calls和工具返回tool
- 导出的 JSONL 中,按时间顺序拼接对话,避免重复的 system / user 消息
## 待办 / 规划
- ⏳ 适配 Trae 等自动化 IDE
- 分析 Trae 的请求模式(包括内部调度、子模型调用、工具链)
- 在不破坏现有 Cherry Studio 方案的前提下,扩展 host/path 识别规则
- 验证多子模型、多工具链场景下的数据结构是否适合作为训练样本
## 安装
### 1. 克隆项目
@@ -58,14 +74,7 @@ networksetup -setsecurewebproxy Wi-Fi 127.0.0.1 8080
在浏览器或系统设置中配置 HTTP/HTTPS 代理为 `127.0.0.1:8080`
### 使用客户端
#### Trae
1. 启动代理服务器
2. 配置系统代理(见上)
3. 在 Trae 中正常使用,配置任何 API 提供商和 Key
4. 所有请求自动被拦截和保存
### 使用客户端(当前推荐)
#### CherryStudio