跳到主要内容

版本 0.10 架构概览

生成时间:2026-01-09 18:53:39
使用模型:google/gemini-3-flash-preview

YOLOX 语音访谈创作平台技术方案 (V0.10)

1. 需求摘要

本项目旨在构建一个以 AI 访谈为主导的语音创作工具,通过深度共情和专业知识引导用户进行自我表达,并将表达内容转化为个人资产。

核心功能点:

  • 冷启动与推荐:通过问卷获取用户画像,基于 LLM 推荐个性化话题。
  • 语音交互体验:支持流式 ASR、VAD 检测、中英混输及口水词过滤,追求低延迟对话。
  • 动态 Prompt 引擎:实时组装用户记忆 (Memory)、专业知识 (RAG) 和元角色 (Meta-Prompt)。
  • 对话深度挖掘:支持 AI 状态提示、Markdown 流式输出及自动生成对话 Summary (Insight)。
  • 会话管理:自动生成标题、支持会话收藏 (Star) 与重命名。

主要需求文档:

2. 系统架构图

3. 数据流图 (核心对话流程)

4. 模块划分说明

4.1 Mobile 端 (React Native)

  • Audio Module: 负责高频采样录音,集成客户端 VAD 算法,减少无效音频上传。
  • Render Module: 专门处理 Markdown 的流式渲染,支持自定义组件(如 Summary 卡片)。
  • State Machine: 管理对话状态(待机、录音中、识别中、AI 思考中、输出中)。

4.2 Backend 端 (Golang / Eino)

  • Eino Orchestrator: 核心编排层,利用 Eino 的 Graph 能力处理 ASR -> Prompt 组装 -> LLM -> Stream 输出的拓扑逻辑。
  • Dynamic Prompt Assembler: 核心逻辑组件,负责 Module 1/2/3 的实时拉取与拼接,处理 Context Window 溢出策略。
  • Session Manager: 负责基于 PostgreSQL 的会话持久化,处理 Star 和 Rename 逻辑。

4.3 RAG 数据端 (Python/Go)

  • Memory Service: 负责将非结构化对话转化为结构化 Persona JSON,存储于 PostgreSQL。
  • Knowledge Service: 基于 Milvus 的向量检索,存储专家知识库(McGill, Gottman 等),支持按话题标签过滤。

4.4 基础设施

  • PostgreSQL: 存储用户信息、问卷配置、结构化 Memory、会话元数据。
  • Milvus: 存储长文本知识库向量。
  • Cloudflare R2: 存储用户原始语音文件,供后续分析或 ASR 纠错使用。