5.0 KiB
5.0 KiB
测试台功能完成!
🎉 新增功能
1. 完整的测试台页面 (/playground)
- ✅ 三栏布局设计: 左侧控制面板、中间输入区域、右侧结果展示
- ✅ 响应式设计: 适配不同屏幕尺寸
- ✅ 深色模式支持: 完整的暗色主题
2. 测试场景管理
- ✅ 通用对话: 基础对话和问答测试
- ✅ 代码生成: 编程相关提示词测试
- ✅ 数据分析: 数据分析和报告生成测试
- ✅ 创意写作: 文学创作和文案生成测试
3. 模型配置
- ✅ 单个模型测试: 选择单个 AI 模型进行测试
- ✅ 批量模型测试: 同时选择多个模型进行对比测试
- ✅ 参数调节: Temperature 和 Max Tokens 实时调节
- ✅ 变量支持: 动态变量设置和应用
4. 批量测试功能
- ✅ 并行测试: 同时测试多个模型,提高效率
- ✅ 结果比较: 直观的对比展示
- ✅ 性能统计: 响应时间、成功率等指标
- ✅ 错误处理: 完善的错误信息展示
5. 结果管理
- ✅ 本地存储: 自动保存测试结果到本地
- ✅ 结果导出: JSON 格式导出测试结果
- ✅ 历史记录: 查看和管理历史测试结果
- ✅ 结果复制: 一键复制响应内容
🔧 技术实现
API 路由
// 单个测试
POST /api/test
{
prompt: string,
model: string,
temperature: number,
maxTokens: number,
variables: Record<string, any>
}
// 批量测试
POST /api/test/batch
{
prompt: string,
models: string[],
temperature: number,
maxTokens: number,
variables: Record<string, any>
}
支持的模型
- DeepSeek:
deepseek-coder,deepseek-chat,deepseek-vision - OpenAI:
gpt-4,gpt-4-turbo,gpt-3.5-turbo - Anthropic:
claude-3-opus,claude-3-sonnet,claude-3-haiku
组件架构
PlaygroundPage: 主页面组件ResultComparison: 结果比较组件- 测试场景配置
- 变量管理系统
🚀 使用方法
1. 单个模型测试
- 选择测试场景(通用对话、代码生成等)
- 选择单个模型
- 调节参数(Temperature、Max Tokens)
- 输入提示词
- 点击"单模型"按钮测试
2. 批量模型测试
- 选择测试场景
- 勾选多个模型
- 调节参数
- 输入提示词
- 点击"批量"按钮进行对比测试
3. 变量测试
- 添加变量(变量名和值)
- 点击"应用变量"
- 在提示词中使用
{{变量名}}格式 - 运行测试
4. 结果管理
- 保存结果: 点击保存按钮保存到本地存储
- 导出结果: 点击导出按钮下载 JSON 文件
- 查看历史: 点击"加载保存"查看历史结果
- 清空历史: 点击"清空历史"清除所有结果
📊 功能特性
测试场景预设
const testScenarios = {
chat: {
title: '通用对话',
prompts: ['你好,请介绍一下你自己', '解释一下什么是人工智能']
},
code: {
title: '代码生成',
prompts: ['用Python写一个计算斐波那契数列的函数']
},
analysis: {
title: '数据分析',
prompts: ['分析一下电商平台的用户行为数据']
},
creative: {
title: '创意写作',
prompts: ['写一个科幻小说的开头']
}
};
批量测试统计
- 成功率: 成功测试数量 / 总测试数量
- 平均响应时间: 所有成功测试的平均响应时间
- 响应时间排名: 按响应时间排序的模型列表
- 错误统计: 失败测试的详细错误信息
结果比较功能
- 并排展示: 多个模型结果同时显示
- 性能对比: 响应时间和成功率对比
- 内容对比: 不同模型的输出内容对比
- 一键复制: 快速复制任意模型的响应
🎯 使用场景
1. 模型选择
- 比较不同模型的性能
- 测试模型在特定任务上的表现
- 选择最适合的模型
2. 提示词优化
- 测试不同提示词的效果
- 优化提示词以获得更好的结果
- 验证提示词的通用性
3. 参数调优
- 测试不同 Temperature 值的影响
- 调整 Max Tokens 以获得合适的输出长度
- 找到最佳参数组合
4. 变量测试
- 测试模板化提示词的效果
- 验证变量替换的正确性
- 批量测试不同输入值
🔒 安全特性
- API 密钥管理: 环境变量配置
- 错误处理: 完善的错误捕获和显示
- 数据保护: 本地存储,不上传敏感数据
- 超时控制: 防止长时间等待
📈 性能优化
- 并行请求: 批量测试使用 Promise.all
- 响应式设计: 适配各种设备
- 懒加载: 按需加载组件
- 缓存机制: 本地存储减少重复请求
✅ 测试台功能已完成!
现在您可以:
- 快速测试: 使用预设场景快速开始测试
- 批量对比: 同时测试多个模型并比较结果
- 参数调优: 实时调节模型参数
- 结果管理: 保存、导出和管理测试结果
- 变量测试: 测试模板化提示词
开始体验强大的 AI 测试台功能吧!🚀