[Agent] 多模态 Agent — 图片识别与语音输入 #33

New Issue

admin · 2026-05-05T01:01:54+08:00

admin commented

2026-05-05 01:01:54 +08:00

背景

当前 Agent 仅支持文本交互。tessdata 目录已存在（OCR 引擎），但未接入 Agent 工具链。

需求

图片识别工具：Agent 可读取用户上传图片中的文字（OCR）
图片理解：调用多模态模型（GPT-4V / Claude Vision）分析图片内容
语音输入：前端录音 → Whisper API 转文字 → 输入到 Agent
语音输出：Agent 回复 TTS 朗读

涉及模块

backend/app/agent_runtime/tool_manager.py — 新增 vision/ocr/tts 工具
frontend/src/components/AgentChatPreview.vue — 语音按钮（已有图标）

优先级

中 — 差异化竞争力

## 背景当前 Agent 仅支持文本交互。tessdata 目录已存在（OCR 引擎），但未接入 Agent 工具链。 ## 需求 1. 图片识别工具：Agent 可读取用户上传图片中的文字（OCR） 2. 图片理解：调用多模态模型（GPT-4V / Claude Vision）分析图片内容 3. 语音输入：前端录音 → Whisper API 转文字 → 输入到 Agent 4. 语音输出：Agent 回复 TTS 朗读 ## 涉及模块 - backend/app/agent_runtime/tool_manager.py — 新增 vision/ocr/tts 工具 - frontend/src/components/AgentChatPreview.vue — 语音按钮（已有图标） ## 优先级中 — 差异化竞争力

admin self-assigned this 2026-05-05 01:01:54 +08:00

admin referenced this issue from a commit

2026-05-06 22:02:32 +08:00

feat: #33 多模态Agent — 图片识别/视觉理解/语音转文字/文字转语音

admin closed this issue

2026-05-06 22:03:53 +08:00

admin referenced this issue from a commit

2026-05-06 22:13:43 +08:00

fix: #33 内置多模态工具现在在工具市场 /api/v1/tools 中可见

Sign in to join this conversation.