跳到主要内容

YOLOX PRD产品需求架构设计任务看板

快速开始
产品需求
- 产品需求文档
- 0.10 版本需求文档说明

产品需求
0.10 版本需求文档说明
语音输入功能

语音输入功能

版本: 0.10
优先级: P0-T0
负责人: @Sphere @张伟
创建日期: 2026-01-07

1. 需求背景

语音输入是产品的核心交互方式，需要提供流畅的语音识别体验，同时保证识别质量和响应速度。

2. 设计原则

本期先做单工语音对话，不支持类似电话的双工沟通体验。核心判断是语音&文本的端到端模型相比等同的预训练语言模型会降智 20% 左右与体感一致。优先保证对话文本的质量的前提下，尽量降低延时。

3. 功能描述

3.1 输入方式与延时

3.1.1 输入方式

倾向于点击开始录音
通过点击或者 VAD 检测停止录音
VAD 停止阈值需要体感测试

3.1.2 流式 ASR

需要流式识别和上屏语音的文字
支持识别断句与标点

3.1.3 延迟目标

待定，首字延时和尾字延时待技术方案确定后补充具体数值（单位：ms）

3.2 语种与识别

3.2.1 语种支持

支持中文普通话
支持中英混合输入

3.2.2 识别优化

去口水词/重复词：去除"嗯""呃""然后""就是"等重复词
保留语气信息但减少噪音
支持输出一些 context 提升识别质量

4. 用户场景

场景1：正常语音输入

用户点击开始录音
说话过程中看到实时识别的文字上屏
用户点击停止或VAD检测到静音自动停止
识别结果发送给AI

场景2：中英混合输入

用户说中英混合的内容
系统能正确识别并转换
识别结果正确发送

场景3：识别优化

用户说话时包含"嗯""然后"等口水词
系统自动过滤这些词
保留语气信息
识别结果更清晰

5. 验收标准

点击开始录音功能正常
VAD检测停止录音功能正常
流式识别文字能实时上屏
识别结果包含正确的断句和标点
支持中文普通话识别
支持中英混合输入识别
能正确过滤口水词和重复词
识别质量在可接受范围内

6. 技术要点

6.1 VAD（Voice Activity Detection）

需要体感测试确定停止阈值
阈值设置要平衡用户体验和识别准确性

6.2 流式ASR

需要支持实时识别和上屏
需要支持断句和标点识别

6.3 识别优化

需要建立口水词/重复词库
需要保留语气信息的机制
需要context支持机制

7. 依赖项

ASR服务（支持流式识别）
VAD算法/服务
识别优化服务

8. 待定事项

首字延时和尾字延时的具体目标值
VAD停止阈值的具体数值（需要体感测试）
口水词/重复词的具体词库
context支持的具体实现方式

对话界面功能

动态Prompt组装

1. 需求背景
2. 设计原则
3. 功能描述
- 3.1 输入方式与延时
- 3.2 语种与识别
4. 用户场景
5. 验收标准
6. 技术要点
7. 依赖项
8. 待定事项

文档

快速开始

代码仓库

PRD 仓库
Mobile 仓库
Server 仓库
RAG 仓库

Copyright © 2026 YOLOX Team