跳到主要内容

虚拟用户测试

版本: 0.10
优先级: P2-T2
负责人: -
创建日期: 2026-01-07

1. 需求背景

为了在真实用户测试前验证 Prompt 质量,需要开发一套 AI vs AI 模拟测试工具。

2. 优先级说明

P2-T2:待定功能,可以更晚实现

3. 功能描述

3.1 功能概述

开发一套 AI vs AI 模拟测试工具,用于验证 Prompt 质量。

3.2 功能要求

3.2.1 用户 Persona 生成

  • 支持从指定的社媒(DY、XHS等)用户账号页爬取用户投稿的内容
  • 理解和抽象成用户 Persona

3.2.2 模型测试

  • 支持选择不同的模型进行测试

3.2.3 自动化评估

  • 未来应该也要支持自动化评估
  • 评估标准待建设:
    • 共情精准度
    • 信息挖掘深度
    • 理论运用
    • 升维时机

3.3 输入输出

类型说明示例
输入话题 Prompt + 虚拟用户 Persona例子 1
例子 2
输出N 轮对话日志 + 质量评分demo 1
demo 2

4. 用户场景

场景1:测试新Prompt

  1. 选择虚拟用户Persona
  2. 选择话题Prompt
  3. 选择测试模型
  4. 运行测试
  5. 查看对话日志和质量评分

场景2:对比不同模型

  1. 使用相同的Persona和Prompt
  2. 选择不同的模型进行测试
  3. 对比对话质量和评分

5. 验收标准

待功能实现时补充

6. 技术要点

6.1 Persona生成

  • 需要爬取社媒内容
  • 需要NLP技术抽象成Persona

6.2 自动化测试

  • 需要模拟对话流程
  • 需要记录对话日志

6.3 质量评估

  • 需要建立评估标准
  • 需要自动化评估算法

7. 依赖项

  • 社媒爬虫服务
  • NLP Persona生成服务
  • 对话模型服务
  • 评估算法

8. 待定事项

  • 评估标准的具体定义
  • 自动化评估算法的实现
  • Persona生成的具体方法
  • 测试工具的具体功能