跳到主要内容

版本 0.10 架构概览

生成时间：2026-01-09 18:53:39
使用模型：google/gemini-3-flash-preview

YOLOX 语音访谈创作平台技术方案 (V0.10)

1. 需求摘要

本项目旨在构建一个以 AI 访谈为主导的语音创作工具，通过深度共情和专业知识引导用户进行自我表达，并将表达内容转化为个人资产。

核心功能点：

冷启动与推荐：通过问卷获取用户画像，基于 LLM 推荐个性化话题。
语音交互体验：支持流式 ASR、VAD 检测、中英混输及口水词过滤，追求低延迟对话。
动态 Prompt 引擎：实时组装用户记忆 (Memory)、专业知识 (RAG) 和元角色 (Meta-Prompt)。
对话深度挖掘：支持 AI 状态提示、Markdown 流式输出及自动生成对话 Summary (Insight)。
会话管理：自动生成标题、支持会话收藏 (Star) 与重命名。

主要需求文档：

2. 系统架构图

3. 数据流图 (核心对话流程)

4. 模块划分说明

4.1 Mobile 端 (React Native)

Audio Module: 负责高频采样录音，集成客户端 VAD 算法，减少无效音频上传。
Render Module: 专门处理 Markdown 的流式渲染，支持自定义组件（如 Summary 卡片）。
State Machine: 管理对话状态（待机、录音中、识别中、AI 思考中、输出中）。

4.2 Backend 端 (Golang / Eino)

Eino Orchestrator: 核心编排层，利用 Eino 的 Graph 能力处理 ASR -> Prompt 组装 -> LLM -> Stream 输出的拓扑逻辑。
Dynamic Prompt Assembler: 核心逻辑组件，负责 Module 1/2/3 的实时拉取与拼接，处理 Context Window 溢出策略。
Session Manager: 负责基于 PostgreSQL 的会话持久化，处理 Star 和 Rename 逻辑。

4.3 RAG 数据端 (Python/Go)

Memory Service: 负责将非结构化对话转化为结构化 Persona JSON，存储于 PostgreSQL。
Knowledge Service: 基于 Milvus 的向量检索，存储专家知识库（McGill, Gottman 等），支持按话题标签过滤。

4.4 基础设施

PostgreSQL: 存储用户信息、问卷配置、结构化 Memory、会话元数据。
Milvus: 存储长文本知识库向量。
Cloudflare R2: 存储用户原始语音文件，供后续分析或 ASR 纠错使用。

1. 需求摘要
2. 系统架构图
3. 数据流图 (核心对话流程)
4. 模块划分说明