虚拟用户测试

版本: 0.10
优先级: P2-T2
负责人: -
创建日期: 2026-01-07

1. 需求背景

为了在真实用户测试前验证 Prompt 质量，需要开发一套 AI vs AI 模拟测试工具。

2. 优先级说明

P2-T2：待定功能，可以更晚实现

3. 功能描述

3.1 功能概述

开发一套 AI vs AI 模拟测试工具，用于验证 Prompt 质量。

3.2 功能要求

3.2.1 用户 Persona 生成

支持从指定的社媒（DY、XHS等）用户账号页爬取用户投稿的内容
理解和抽象成用户 Persona

3.2.2 模型测试

支持选择不同的模型进行测试

3.2.3 自动化评估

未来应该也要支持自动化评估
评估标准待建设：
- 共情精准度
- 信息挖掘深度
- 理论运用
- 升维时机

3.3 输入输出

类型	说明	示例
输入	话题 Prompt + 虚拟用户 Persona	例子 1 例子 2
输出	N 轮对话日志 + 质量评分	demo 1 demo 2

4. 用户场景

场景1：测试新Prompt

选择虚拟用户Persona
选择话题Prompt
选择测试模型
运行测试
查看对话日志和质量评分

场景2：对比不同模型

使用相同的Persona和Prompt
选择不同的模型进行测试
对比对话质量和评分

5. 验收标准

待功能实现时补充

6. 技术要点

6.1 Persona生成

需要爬取社媒内容
需要NLP技术抽象成Persona

6.2 自动化测试

需要模拟对话流程
需要记录对话日志

6.3 质量评估

需要建立评估标准
需要自动化评估算法

7. 依赖项

社媒爬虫服务
NLP Persona生成服务
对话模型服务
评估算法

8. 待定事项

评估标准的具体定义
自动化评估算法的实现
Persona生成的具体方法
测试工具的具体功能

1. 需求背景​

2. 优先级说明​

3. 功能描述​

3.1 功能概述​

3.2 功能要求​

3.2.1 用户 Persona 生成​

3.2.2 模型测试​

3.2.3 自动化评估​

3.3 输入输出​

4. 用户场景​

5. 验收标准​

6. 技术要点​

6.1 Persona生成​

6.2 自动化测试​

6.3 质量评估​

7. 依赖项​

8. 待定事项​

1. 需求背景

2. 优先级说明

3. 功能描述

3.1 功能概述

3.2 功能要求

3.2.1 用户 Persona 生成

3.2.2 模型测试

3.2.3 自动化评估

3.3 输入输出

4. 用户场景

5. 验收标准

6. 技术要点

6.1 Persona生成

6.2 自动化测试

6.3 质量评估

7. 依赖项

8. 待定事项