[Agent] 多模态 Agent — 图片识别与语音输入 #33

Closed
opened 2026-05-05 01:01:54 +08:00 by admin · 0 comments
Owner

背景

当前 Agent 仅支持文本交互。tessdata 目录已存在(OCR 引擎),但未接入 Agent 工具链。

需求

  1. 图片识别工具:Agent 可读取用户上传图片中的文字(OCR)
  2. 图片理解:调用多模态模型(GPT-4V / Claude Vision)分析图片内容
  3. 语音输入:前端录音 → Whisper API 转文字 → 输入到 Agent
  4. 语音输出:Agent 回复 TTS 朗读

涉及模块

  • backend/app/agent_runtime/tool_manager.py — 新增 vision/ocr/tts 工具
  • frontend/src/components/AgentChatPreview.vue — 语音按钮(已有图标)

优先级

中 — 差异化竞争力

## 背景 当前 Agent 仅支持文本交互。tessdata 目录已存在(OCR 引擎),但未接入 Agent 工具链。 ## 需求 1. 图片识别工具:Agent 可读取用户上传图片中的文字(OCR) 2. 图片理解:调用多模态模型(GPT-4V / Claude Vision)分析图片内容 3. 语音输入:前端录音 → Whisper API 转文字 → 输入到 Agent 4. 语音输出:Agent 回复 TTS 朗读 ## 涉及模块 - backend/app/agent_runtime/tool_manager.py — 新增 vision/ocr/tts 工具 - frontend/src/components/AgentChatPreview.vue — 语音按钮(已有图标) ## 优先级 中 — 差异化竞争力
admin self-assigned this 2026-05-05 01:01:54 +08:00
admin closed this issue 2026-05-06 22:03:53 +08:00
Sign in to join this conversation.
No Label
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: admin/aiagent#33