版本 0.10 里程碑规划
生成时间:2026-01-09 18:53:39
使用模型:google/gemini-3-flash-preview
YOLOX 项目技术架构与开发里程碑规划
1. 整体架构设计总览
基于技术栈信息,系统将采用分层架构:
- Mobile 端 (React Native):负责语音采集、流式文本渲染、问卷交互及会话管理。
- Backend 端 (Golang + Eino):作为核心编排层,利用 Eino 框架构建 Agent 拓扑图,处理动态 Prompt 组装、流式 ASR 转发及对话逻辑控制。
- RAG 数据端 (Python/Go):负责向量检索(Milvus)与知识库管理。
- 基础设施:Supabase (PostgreSQL) 存储结构化数据,Cloudflare R2 存储语音文件。
2. 开发里程碑规划
M1: 基础设施与冷启动核心链路
目标:完成基础环境搭建,实现用户从打开 App 到完成问卷并看到推荐话题的完整闭环。
- 后端任务:
- 初始化
yolox-server仓库,配置 PostgreSQL 数据库 Schema(用户表、问卷配置表、话题表)。 - 实现问卷配置查询接口与结果提交接口。
- 集成基础 LLM,实现基于问卷结果的简单话题推荐逻辑。
- 初始化
- 前端任务:
- 初始化
yolox-mobile项目,配置 React Navigation 导航体系。 - 开发启动页、问卷页面(支持单选/多选组件)。
- 开发首页 Feed 流基础框架,展示推荐话题卡片。
- 初始化
- 交付物:
- 可运行的冷启动问卷流程。
- 基础数据库模型。
M2: 对话引擎与语音交互基础
目标:实现核心对话页面(Jot),集成流式 ASR 与 LLM 流式输出,支持基础语音输入。
- 后端任务:
- 基于 Eino 框架构建基础对话 Graph。
- 集成 ASR 服务(支持流式 WebSocket 转发)。
- 实现流式对话接口(SSE 或 WebSocket),支持 Markdown 格式输出。
- 前端任务:
- 开发 Jot 对话页面,实现语音长按录音交互逻辑。
- 集成 Markdown 渲染引擎,支持列表、引用等格式。
- 实现流式文本上屏动画,支持 30-50 字/秒速度控制。
- 依赖关系:依赖 M1 的用户身份标识。
- 交付物:
- 具备流式响应能力的对话系统。
- 可用的语音转文字输入模块。
M3: 动态 Prompt 组装与用户 Memory 系统
目标:引入用户记忆模块,实现 System Prompt 的动态拼装,提升 AI 的个性化访谈能力。
- 后端任务:
- 开发 Module 1 (User Memory) 提取器:对话结束后异步调用 LLM 提取 Persona 信息并存入 PostgreSQL。
- 开发 Prompt 组装引擎:实时从数据库读取 Memory 并拼装至 Eino 的 System Template。
- 设计并实现会话标题自动生成逻辑。
- 前端任务:
- 开发侧边栏历史会话列表。
- 实现会话 Star(收藏)与 Rename 功能。
- 交付物:
- 具备“记忆”能力的 Agent。
- 完整的历史会话管理功能。
M4: RAG 知识库与专业领域增强
目标:集成 RAG 服务,为 AI 提供专家知识支持,并实现对话 Summary(Insight)生成。
- RAG 端任务:
- 初始化
yolox-rag,配置 Milvus 向量数据库。 - 导入首批专家知识(如健康管理、心理沟通技巧)。
- 提供基于语义的话题知识检索接口。
- 初始化
- 后端任务:
- 在 Eino Graph 中接入 Module 2 (Knowledge) 检索节点。
- 开发 Summary 触发逻辑:基于对话轮数或语义判断,生成 Insight 组件数据。
- 前端任务:
- 开发 Artifact 样式的高级 Summary 展示组件。
- 实现 AI 状态提示(如“正在检索知识...”)。
- 依赖关系:依赖 M2 的对话流框 架。
- 交付物:
- 具备专业知识支撑的访谈系统。
- 对话 Insight 生成与展示模块。
M5: 性能优化与虚拟测试工具 (P2)
目标:优化语音延迟,提升识别准确度,并为 Prompt 迭代提供自动化测试支持。
- 后端任务:
- 优化 VAD 算法参数,减少尾字延迟。
- 实现口水词过滤中间件。
- 开发虚拟用户测试脚本:模拟 Persona 与 Agent 对话并记录日志。
- 前端任务:
- 优化录音权限处理与网络异常提示。
- 个人主页功能完善。
- 交付物:
- 低延迟的语音交互体验。
- AI vs AI 自动化测试报告。
3. 核心技术任务拆解 (Task Breakdown)
后端 (Golang/Eino)
- Eino Graph 构 建:定义 Input -> ASR -> Memory Retrieval -> Knowledge Retrieval -> LLM -> Output 的流转拓扑。
- 动态 Prompt 模板:编写支持 Module 1/2/3 占位符的 Meta-Prompt 引擎。
- 数据持久化:设计 Supabase JSONB 格式存储用户 Persona,确保 Schema 易于扩展。
前端 (React Native)
- Audio Engine:封装原生录音库,支持流式 PCM 数据采集与 VAD 状态监听。
- UI 状态机:管理对话页的
Idle,Recording,Recognizing,Thinking,Streaming状态。 - 缓存策略:实现历史会话的本地缓存,提升侧边栏打开速度。
RAG (Milvus/Embedding)
- 向量化 Pipeline:建立从 PDF/Markdown 到 Milvus 向量的清洗与入库流程。
- 多路召回:结合关键词与语义向量,提高专家知识的匹配精度。