版本 0.10 里程碑规划

生成时间：2026-01-09 18:53:39
使用模型：google/gemini-3-flash-preview

YOLOX 项目技术架构与开发里程碑规划

1. 整体架构设计总览

基于技术栈信息，系统将采用分层架构：

Mobile 端 (React Native)：负责语音采集、流式文本渲染、问卷交互及会话管理。
Backend 端 (Golang + Eino)：作为核心编排层，利用 Eino 框架构建 Agent 拓扑图，处理动态 Prompt 组装、流式 ASR 转发及对话逻辑控制。
RAG 数据端 (Python/Go)：负责向量检索（Milvus）与知识库管理。
基础设施：Supabase (PostgreSQL) 存储结构化数据，Cloudflare R2 存储语音文件。

2. 开发里程碑规划

M1: 基础设施与冷启动核心链路

目标：完成基础环境搭建，实现用户从打开 App 到完成问卷并看到推荐话题的完整闭环。

后端任务：
- 初始化 yolox-server 仓库，配置 PostgreSQL 数据库 Schema（用户表、问卷配置表、话题表）。
- 实现问卷配置查询接口与结果提交接口。
- 集成基础 LLM，实现基于问卷结果的简单话题推荐逻辑。
前端任务：
- 初始化 yolox-mobile 项目，配置 React Navigation 导航体系。
- 开发启动页、问卷页面（支持单选/多选组件）。
- 开发首页 Feed 流基础框架，展示推荐话题卡片。
交付物：
- 可运行的冷启动问卷流程。
- 基础数据库模型。

M2: 对话引擎与语音交互基础

目标：实现核心对话页面（Jot），集成流式 ASR 与 LLM 流式输出，支持基础语音输入。

后端任务：
- 基于 Eino 框架构建基础对话 Graph。
- 集成 ASR 服务（支持流式 WebSocket 转发）。
- 实现流式对话接口（SSE 或 WebSocket），支持 Markdown 格式输出。
前端任务：
- 开发 Jot 对话页面，实现语音长按录音交互逻辑。
- 集成 Markdown 渲染引擎，支持列表、引用等格式。
- 实现流式文本上屏动画，支持 30-50 字/秒速度控制。
依赖关系：依赖 M1 的用户身份标识。
交付物：
- 具备流式响应能力的对话系统。
- 可用的语音转文字输入模块。

M3: 动态 Prompt 组装与用户 Memory 系统

目标：引入用户记忆模块，实现 System Prompt 的动态拼装，提升 AI 的个性化访谈能力。

后端任务：
- 开发 Module 1 (User Memory) 提取器：对话结束后异步调用 LLM 提取 Persona 信息并存入 PostgreSQL。
- 开发 Prompt 组装引擎：实时从数据库读取 Memory 并拼装至 Eino 的 System Template。
- 设计并实现会话标题自动生成逻辑。
前端任务：
- 开发侧边栏历史会话列表。
- 实现会话 Star（收藏）与 Rename 功能。
交付物：
- 具备“记忆”能力的 Agent。
- 完整的历史会话管理功能。

M4: RAG 知识库与专业领域增强

目标：集成 RAG 服务，为 AI 提供专家知识支持，并实现对话 Summary（Insight）生成。

RAG 端任务：
- 初始化 yolox-rag，配置 Milvus 向量数据库。
- 导入首批专家知识（如健康管理、心理沟通技巧）。
- 提供基于语义的话题知识检索接口。
后端任务：
- 在 Eino Graph 中接入 Module 2 (Knowledge) 检索节点。
- 开发 Summary 触发逻辑：基于对话轮数或语义判断，生成 Insight 组件数据。
前端任务：
- 开发 Artifact 样式的高级 Summary 展示组件。
- 实现 AI 状态提示（如“正在检索知识...”）。
依赖关系：依赖 M2 的对话流框架。
交付物：
- 具备专业知识支撑的访谈系统。
- 对话 Insight 生成与展示模块。

M5: 性能优化与虚拟测试工具 (P2)

目标：优化语音延迟，提升识别准确度，并为 Prompt 迭代提供自动化测试支持。

后端任务：
- 优化 VAD 算法参数，减少尾字延迟。
- 实现口水词过滤中间件。
- 开发虚拟用户测试脚本：模拟 Persona 与 Agent 对话并记录日志。
前端任务：
- 优化录音权限处理与网络异常提示。
- 个人主页功能完善。
交付物：
- 低延迟的语音交互体验。
- AI vs AI 自动化测试报告。

3. 核心技术任务拆解 (Task Breakdown)

后端 (Golang/Eino)

Eino Graph 构建：定义 Input -> ASR -> Memory Retrieval -> Knowledge Retrieval -> LLM -> Output 的流转拓扑。
动态 Prompt 模板：编写支持 Module 1/2/3 占位符的 Meta-Prompt 引擎。
数据持久化：设计 Supabase JSONB 格式存储用户 Persona，确保 Schema 易于扩展。

前端 (React Native)

Audio Engine：封装原生录音库，支持流式 PCM 数据采集与 VAD 状态监听。
UI 状态机：管理对话页的 Idle, Recording, Recognizing, Thinking, Streaming 状态。
缓存策略：实现历史会话的本地缓存，提升侧边栏打开速度。

RAG (Milvus/Embedding)

向量化 Pipeline：建立从 PDF/Markdown 到 Milvus 向量的清洗与入库流程。
多路召回：结合关键词与语义向量，提高专家知识的匹配精度。

YOLOX 项目技术架构与开发里程碑规划

1. 整体架构设计总览​

2. 开发里程碑规划​

M1: 基础设施与冷启动核心链路​

M2: 对话引擎与语音交互基础​

M3: 动态 Prompt 组装与用户 Memory 系统​

M4: RAG 知识库与专业领域增强​

M5: 性能优化与虚拟测试工具 (P2)​

3. 核心技术任务拆解 (Task Breakdown)​

后端 (Golang/Eino)​

前端 (React Native)​

RAG (Milvus/Embedding)​