版本 0.10 架构概览
生成时间:2026-01-09 18:53:39
使用模型:google/gemini-3-flash-preview
YOLOX 语音访谈创作平台技术方案 (V0.10)
1. 需求摘要
本项目旨在构建一个以 AI 访谈为主导的语音创作工具,通过深度共情和专业知识引导用户进行自我表达,并将表达内容转化为个人资产。
核心功能点:
- 冷启动与推荐:通过问卷获取用户画像,基于 LLM 推荐个性化话题。
- 语音交互体验:支持流式 ASR、VAD 检测、中英混输及口水词过滤,追求低延迟对话。
- 动态 Prompt 引擎:实时组装用户记忆 (Memory)、专业知识 (RAG) 和元角色 (Meta-Prompt)。
- 对话深度挖掘:支持 AI 状态提示、Markdown 流式输出及自动生成对话 Summary (Insight)。
- 会话管理:自动生成标题、支持会话收藏 (Star) 与重命名。
主要需求文档:
2. 系统架构图
3. 数据流图 (核心对话流程)
4. 模块划分说明
4.1 Mobile 端 (React Native)
- Audio Module: 负责高频采样录音,集成客户端 VAD 算法,减少无效音频上传。
- Render Module: 专门处理 Markdown 的流式渲染,支持自定义组件(如 Summary 卡片)。
- State Machine: 管理对话状态(待机、录音中、识别中、AI 思考中、输出中)。
4.2 Backend 端 (Golang / Eino)
- Eino Orchestrator: 核心编排层,利用 Eino 的 Graph 能力处理 ASR -> Prompt 组装 -> LLM -> Stream 输出的拓扑逻辑。
- Dynamic Prompt Assembler: 核心逻辑组件,负责 Module 1/2/3 的实时拉取与拼接,处理 Context Window 溢出策略。
- Session Manager: 负责基于 PostgreSQL 的会话持久化,处理 Star 和 Rename 逻辑。
4.3 RAG 数据端 (Python/Go)
- Memory Service: 负 责将非结构化对话转化为结构化 Persona JSON,存储于 PostgreSQL。
- Knowledge Service: 基于 Milvus 的向量检索,存储专家知识库(McGill, Gottman 等),支持按话题标签过滤。
4.4 基础设施
- PostgreSQL: 存储用户信息、问卷配置、结构化 Memory、会话元数据。
- Milvus: 存储长文本知识库向量。
- Cloudflare R2: 存储用户原始语音文件,供后续分析或 ASR 纠错使用。