跳到主要内容

版本 0.10 里程碑规划

生成时间:2026-01-09 18:53:39
使用模型:google/gemini-3-flash-preview

YOLOX 项目技术架构与开发里程碑规划

1. 整体架构设计总览

基于技术栈信息,系统将采用分层架构:

  • Mobile 端 (React Native):负责语音采集、流式文本渲染、问卷交互及会话管理。
  • Backend 端 (Golang + Eino):作为核心编排层,利用 Eino 框架构建 Agent 拓扑图,处理动态 Prompt 组装、流式 ASR 转发及对话逻辑控制。
  • RAG 数据端 (Python/Go):负责向量检索(Milvus)与知识库管理。
  • 基础设施:Supabase (PostgreSQL) 存储结构化数据,Cloudflare R2 存储语音文件。

2. 开发里程碑规划

M1: 基础设施与冷启动核心链路

目标:完成基础环境搭建,实现用户从打开 App 到完成问卷并看到推荐话题的完整闭环。

  • 后端任务
    • 初始化 yolox-server 仓库,配置 PostgreSQL 数据库 Schema(用户表、问卷配置表、话题表)。
    • 实现问卷配置查询接口与结果提交接口。
    • 集成基础 LLM,实现基于问卷结果的简单话题推荐逻辑。
  • 前端任务
    • 初始化 yolox-mobile 项目,配置 React Navigation 导航体系。
    • 开发启动页、问卷页面(支持单选/多选组件)。
    • 开发首页 Feed 流基础框架,展示推荐话题卡片。
  • 交付物
    • 可运行的冷启动问卷流程。
    • 基础数据库模型。

M2: 对话引擎与语音交互基础

目标:实现核心对话页面(Jot),集成流式 ASR 与 LLM 流式输出,支持基础语音输入。

  • 后端任务
    • 基于 Eino 框架构建基础对话 Graph。
    • 集成 ASR 服务(支持流式 WebSocket 转发)。
    • 实现流式对话接口(SSE 或 WebSocket),支持 Markdown 格式输出。
  • 前端任务
    • 开发 Jot 对话页面,实现语音长按录音交互逻辑。
    • 集成 Markdown 渲染引擎,支持列表、引用等格式。
    • 实现流式文本上屏动画,支持 30-50 字/秒速度控制。
  • 依赖关系:依赖 M1 的用户身份标识。
  • 交付物
    • 具备流式响应能力的对话系统。
    • 可用的语音转文字输入模块。

M3: 动态 Prompt 组装与用户 Memory 系统

目标:引入用户记忆模块,实现 System Prompt 的动态拼装,提升 AI 的个性化访谈能力。

  • 后端任务
    • 开发 Module 1 (User Memory) 提取器:对话结束后异步调用 LLM 提取 Persona 信息并存入 PostgreSQL。
    • 开发 Prompt 组装引擎:实时从数据库读取 Memory 并拼装至 Eino 的 System Template。
    • 设计并实现会话标题自动生成逻辑。
  • 前端任务
    • 开发侧边栏历史会话列表。
    • 实现会话 Star(收藏)与 Rename 功能。
  • 交付物
    • 具备“记忆”能力的 Agent。
    • 完整的历史会话管理功能。

M4: RAG 知识库与专业领域增强

目标:集成 RAG 服务,为 AI 提供专家知识支持,并实现对话 Summary(Insight)生成。

  • RAG 端任务
    • 初始化 yolox-rag,配置 Milvus 向量数据库。
    • 导入首批专家知识(如健康管理、心理沟通技巧)。
    • 提供基于语义的话题知识检索接口。
  • 后端任务
    • 在 Eino Graph 中接入 Module 2 (Knowledge) 检索节点。
    • 开发 Summary 触发逻辑:基于对话轮数或语义判断,生成 Insight 组件数据。
  • 前端任务
    • 开发 Artifact 样式的高级 Summary 展示组件。
    • 实现 AI 状态提示(如“正在检索知识...”)。
  • 依赖关系:依赖 M2 的对话流框架。
  • 交付物
    • 具备专业知识支撑的访谈系统。
    • 对话 Insight 生成与展示模块。

M5: 性能优化与虚拟测试工具 (P2)

目标:优化语音延迟,提升识别准确度,并为 Prompt 迭代提供自动化测试支持。

  • 后端任务
    • 优化 VAD 算法参数,减少尾字延迟。
    • 实现口水词过滤中间件。
    • 开发虚拟用户测试脚本:模拟 Persona 与 Agent 对话并记录日志。
  • 前端任务
    • 优化录音权限处理与网络异常提示。
    • 个人主页功能完善。
  • 交付物
    • 低延迟的语音交互体验。
    • AI vs AI 自动化测试报告。

3. 核心技术任务拆解 (Task Breakdown)

后端 (Golang/Eino)

  1. Eino Graph 构建:定义 Input -> ASR -> Memory Retrieval -> Knowledge Retrieval -> LLM -> Output 的流转拓扑。
  2. 动态 Prompt 模板:编写支持 Module 1/2/3 占位符的 Meta-Prompt 引擎。
  3. 数据持久化:设计 Supabase JSONB 格式存储用户 Persona,确保 Schema 易于扩展。

前端 (React Native)

  1. Audio Engine:封装原生录音库,支持流式 PCM 数据采集与 VAD 状态监听。
  2. UI 状态机:管理对话页的 Idle, Recording, Recognizing, Thinking, Streaming 状态。
  3. 缓存策略:实现历史会话的本地缓存,提升侧边栏打开速度。

RAG (Milvus/Embedding)

  1. 向量化 Pipeline:建立从 PDF/Markdown 到 Milvus 向量的清洗与入库流程。
  2. 多路召回:结合关键词与语义向量,提高专家知识的匹配精度。