跳到主要内容

语音输入功能

版本: 0.10
优先级: P0-T0
负责人: @Sphere @张伟
创建日期: 2026-01-07

1. 需求背景

语音输入是产品的核心交互方式,需要提供流畅的语音识别体验,同时保证识别质量和响应速度。

2. 设计原则

本期先做单工语音对话,不支持类似电话的双工沟通体验。核心判断是语音&文本的端到端模型相比等同的预训练语言模型会降智 20% 左右与体感一致。优先保证对话文本的质量的前提下,尽量降低延时。

3. 功能描述

3.1 输入方式与延时

3.1.1 输入方式

  • 倾向于点击开始录音
  • 通过点击或者 VAD 检测停止录音
  • VAD 停止阈值需要体感测试

3.1.2 流式 ASR

  • 需要流式识别和上屏语音的文字
  • 支持识别断句与标点

3.1.3 延迟目标

  • 待定,首字延时和尾字延时待技术方案确定后补充具体数值(单位:ms)

3.2 语种与识别

3.2.1 语种支持

  • 支持中文普通话
  • 支持中英混合输入

3.2.2 识别优化

  • 去口水词/重复词:去除"嗯""呃""然后""就是"等重复词
  • 保留语气信息但减少噪音
  • 支持输出一些 context 提升识别质量

4. 用户场景

场景1:正常语音输入

  1. 用户点击开始录音
  2. 说话过程中看到实时识别的文字上屏
  3. 用户点击停止或VAD检测到静音自动停止
  4. 识别结果发送给AI

场景2:中英混合输入

  1. 用户说中英混合的内容
  2. 系统能正确识别并转换
  3. 识别结果正确发送

场景3:识别优化

  1. 用户说话时包含"嗯""然后"等口水词
  2. 系统自动过滤这些词
  3. 保留语气信息
  4. 识别结果更清晰

5. 验收标准

  • 点击开始录音功能正常
  • VAD检测停止录音功能正常
  • 流式识别文字能实时上屏
  • 识别结果包含正确的断句和标点
  • 支持中文普通话识别
  • 支持中英混合输入识别
  • 能正确过滤口水词和重复词
  • 识别质量在可接受范围内

6. 技术要点

6.1 VAD(Voice Activity Detection)

  • 需要体感测试确定停止阈值
  • 阈值设置要平衡用户体验和识别准确性

6.2 流式ASR

  • 需要支持实时识别和上屏
  • 需要支持断句和标点识别

6.3 识别优化

  • 需要建立口水词/重复词库
  • 需要保留语气信息的机制
  • 需要context支持机制

7. 依赖项

  • ASR服务(支持流式识别)
  • VAD算法/服务
  • 识别优化服务

8. 待定事项

  • 首字延时和尾字延时的具体目标值
  • VAD停止阈值的具体数值(需要体感测试)
  • 口水词/重复词的具体词库
  • context支持的具体实现方式