语音输入功能
版本: 0.10
优先级: P0-T0
负责人: @Sphere @张伟
创建日期: 2026-01-07
1. 需求背景
语音输入是产品的核心交互方式,需要提供流畅的语音识别体验,同时保证识别质量和响应速度。
2. 设计原则
本期先做单工语音对话,不支持类似电话的双工沟通体验。核心判断是语音&文本的端到端模型相比等同的预训练语言模型会降智 20% 左右与体感一致。优先保证对话文本的质量的前提下,尽量降低延时。
3. 功能描述
3.1 输入方式与延时
3.1.1 输入方式
- 倾向于点击开始录音
- 通过点击或者 VAD 检测停止录音
- VAD 停止阈值需要体感测试
3.1.2 流式 ASR
- 需要流式识别和上屏语音的文字
- 支持识别断句与标点
3.1.3 延迟目标
- 待定,首字延时和尾字延时待技术方案确定后补充具体数值(单位:ms)
3.2 语种与识别
3.2.1 语种支持
- 支持中文普通话
- 支持中英混合输入
3.2.2 识别优化
- 去口水词/重复词:去除"嗯""呃""然后""就是"等重复词
- 保留语气信息但减少噪音
- 支持输出一些 context 提升识别质量
4. 用户场景
场景1:正常语音输入
- 用户点击开始录音
- 说话过程中看到实时识别的文字上屏
- 用户点击停止或VAD检测到静音自动停止
- 识别结果发送给AI
场景2:中英混合输入
- 用户说中英混合的内容
- 系统能正确识别并转换
- 识别结果正确发送
场景3:识别优化
- 用户说话时包含"嗯""然后"等口水词
- 系统自动过滤这些词
- 保留语气信息
- 识别结果更清晰
5. 验收标准
- 点击开始录音功能正常
- VAD检测停止录音功能正常
- 流式识别文字能实时上屏
- 识别结果包含正确的断句和标点
- 支持中文普通话识别
- 支持中英混合输入识别
- 能正确过滤口水词和重复词
- 识别质量在可接受范围内
6. 技术要点
6.1 VAD(Voice Activity Detection)
- 需要体感测试确定停止阈值
- 阈值设置要平 衡用户体验和识别准确性
6.2 流式ASR
- 需要支持实时识别和上屏
- 需要支持断句和标点识别
6.3 识别优化
- 需要建立口水词/重复词库
- 需要保留语气信息的机制
- 需要context支持机制
7. 依赖项
- ASR服务(支持流式识别)
- VAD算法/服务
- 识别优化服务
8. 待定事项
- 首字延时和尾字延时的具体目标值
- VAD停止阈值的具体数值(需要体感测试)
- 口水词/重复词的具体词库
- context支持的具体实现方式