Files
aiapply/PLAYGROUND_FEATURES.md
2025-09-06 08:28:47 +08:00

5.0 KiB
Raw Blame History

测试台功能完成!

🎉 新增功能

1. 完整的测试台页面 (/playground)

  • 三栏布局设计: 左侧控制面板、中间输入区域、右侧结果展示
  • 响应式设计: 适配不同屏幕尺寸
  • 深色模式支持: 完整的暗色主题

2. 测试场景管理

  • 通用对话: 基础对话和问答测试
  • 代码生成: 编程相关提示词测试
  • 数据分析: 数据分析和报告生成测试
  • 创意写作: 文学创作和文案生成测试

3. 模型配置

  • 单个模型测试: 选择单个 AI 模型进行测试
  • 批量模型测试: 同时选择多个模型进行对比测试
  • 参数调节: Temperature 和 Max Tokens 实时调节
  • 变量支持: 动态变量设置和应用

4. 批量测试功能

  • 并行测试: 同时测试多个模型,提高效率
  • 结果比较: 直观的对比展示
  • 性能统计: 响应时间、成功率等指标
  • 错误处理: 完善的错误信息展示

5. 结果管理

  • 本地存储: 自动保存测试结果到本地
  • 结果导出: JSON 格式导出测试结果
  • 历史记录: 查看和管理历史测试结果
  • 结果复制: 一键复制响应内容

🔧 技术实现

API 路由

// 单个测试
POST /api/test
{
  prompt: string,
  model: string,
  temperature: number,
  maxTokens: number,
  variables: Record<string, any>
}

// 批量测试
POST /api/test/batch
{
  prompt: string,
  models: string[],
  temperature: number,
  maxTokens: number,
  variables: Record<string, any>
}

支持的模型

  • DeepSeek: deepseek-coder, deepseek-chat, deepseek-vision
  • OpenAI: gpt-4, gpt-4-turbo, gpt-3.5-turbo
  • Anthropic: claude-3-opus, claude-3-sonnet, claude-3-haiku

组件架构

  • PlaygroundPage: 主页面组件
  • ResultComparison: 结果比较组件
  • 测试场景配置
  • 变量管理系统

🚀 使用方法

1. 单个模型测试

  1. 选择测试场景(通用对话、代码生成等)
  2. 选择单个模型
  3. 调节参数Temperature、Max Tokens
  4. 输入提示词
  5. 点击"单模型"按钮测试

2. 批量模型测试

  1. 选择测试场景
  2. 勾选多个模型
  3. 调节参数
  4. 输入提示词
  5. 点击"批量"按钮进行对比测试

3. 变量测试

  1. 添加变量(变量名和值)
  2. 点击"应用变量"
  3. 在提示词中使用 {{变量名}} 格式
  4. 运行测试

4. 结果管理

  • 保存结果: 点击保存按钮保存到本地存储
  • 导出结果: 点击导出按钮下载 JSON 文件
  • 查看历史: 点击"加载保存"查看历史结果
  • 清空历史: 点击"清空历史"清除所有结果

📊 功能特性

测试场景预设

const testScenarios = {
  chat: {
    title: '通用对话',
    prompts: ['你好,请介绍一下你自己', '解释一下什么是人工智能']
  },
  code: {
    title: '代码生成',
    prompts: ['用Python写一个计算斐波那契数列的函数']
  },
  analysis: {
    title: '数据分析',
    prompts: ['分析一下电商平台的用户行为数据']
  },
  creative: {
    title: '创意写作',
    prompts: ['写一个科幻小说的开头']
  }
};

批量测试统计

  • 成功率: 成功测试数量 / 总测试数量
  • 平均响应时间: 所有成功测试的平均响应时间
  • 响应时间排名: 按响应时间排序的模型列表
  • 错误统计: 失败测试的详细错误信息

结果比较功能

  • 并排展示: 多个模型结果同时显示
  • 性能对比: 响应时间和成功率对比
  • 内容对比: 不同模型的输出内容对比
  • 一键复制: 快速复制任意模型的响应

🎯 使用场景

1. 模型选择

  • 比较不同模型的性能
  • 测试模型在特定任务上的表现
  • 选择最适合的模型

2. 提示词优化

  • 测试不同提示词的效果
  • 优化提示词以获得更好的结果
  • 验证提示词的通用性

3. 参数调优

  • 测试不同 Temperature 值的影响
  • 调整 Max Tokens 以获得合适的输出长度
  • 找到最佳参数组合

4. 变量测试

  • 测试模板化提示词的效果
  • 验证变量替换的正确性
  • 批量测试不同输入值

🔒 安全特性

  • API 密钥管理: 环境变量配置
  • 错误处理: 完善的错误捕获和显示
  • 数据保护: 本地存储,不上传敏感数据
  • 超时控制: 防止长时间等待

📈 性能优化

  • 并行请求: 批量测试使用 Promise.all
  • 响应式设计: 适配各种设备
  • 懒加载: 按需加载组件
  • 缓存机制: 本地存储减少重复请求

测试台功能已完成!

现在您可以:

  1. 快速测试: 使用预设场景快速开始测试
  2. 批量对比: 同时测试多个模型并比较结果
  3. 参数调优: 实时调节模型参数
  4. 结果管理: 保存、导出和管理测试结果
  5. 变量测试: 测试模板化提示词

开始体验强大的 AI 测试台功能吧!🚀