从产品设计到研发、发布、运营,14 个 AI Agent 角色覆盖 SDLC 全流程。
基于 LLM + Multi-Agent + DAG 编排引擎 + Harness Engineering 打造企业级研发自动化。
让 AI Agent 成为研发流程中的"第一响应者",开发者从"手动实现者"转型为"AI 编排指挥官"
DevFlow AI = LLM + Multi-Agent + DAG 编排 + Harness Engineering + MCP 协议
它不是一个"代码生成器",而是一个覆盖产品设计 → 研发 → 发布 → 运营全闭环的自动化平台。AI Agent 像一支虚拟研发团队——有产品经理、架构师、开发者、测试工程师、运维工程师和产品运营。
| 痛点 | 现状 | DevFlow 目标 |
|---|---|---|
| 需求到代码转化慢 | 需求文档→人工拆解→手动编码,周期 5-10 天 | AI 自动解析需求→生成设计→产出代码,缩短至 1-2 天 |
| 质量保障依赖人工 | 手动编写测试用例、人工 Code Review | AI 自动生成测试、自动审查代码(用不同模型消除确认偏差) |
| 部署流程碎片化 | CI/CD 配置复杂、环境不一致 | AI 编排部署流水线、自动化环境管理 |
| 生产监控被动响应 | 告警→人工排查→修复 | AI 预测性监控→自动根因分析→自愈建议 |
| 输入输出端断裂 | 需求从哪来?发布后用户反馈呢? | 产品域+运营域形成完整闭环 |
产品运营 Agent 分析用户行为和反馈数据,自动提出新功能建议→回到产品设计;提出现有功能改进→直接回到需求分析。这让整个系统实现了数据驱动的自我进化。
从基础数据层到治理合规层,构建企业级的 Agent 运行基础设施
Agent = LLM (大脑) + Harness (执行外壳)
LLM 只负责推理决策,Harness 负责一切执行、安全、状态管理和可观测性。
• 安全层:输入过滤、Prompt 注入防御、输出审查
• 编排层:状态机管理、任务分解、路由选择、重试策略
• 工具层:MCP 连接器、API 网关、沙箱执行环境
• 可观测层:OpenTelemetry 全链路追踪、Token 消耗监控
分为产品域、研发域、发布域、运营域四大业务域,每个阶段由独立的 Agent 角色执行
| # | Agent 角色 | 域 | 类型 | 推荐模型 |
|---|---|---|---|---|
| 1 | Product Designer | 产品 | 任务型 | Claude Opus 4 |
| 2 | Requirement Analyst | 研发 | 任务型 | Claude Sonnet 4 |
| 3 | Architect | 研发 | 任务型 | Claude Opus 4 |
| 4 | Developer | 研发 | 任务型 | Claude Sonnet 4 |
| 5 | Code Reviewer | 研发 | 任务型 | GPT-4o ⚠️ 与开发者不同模型 |
| 6 | DB Engineer | 研发 | 任务型 | DeepSeek V4 |
| 7 | Security Reviewer | 研发 | 任务型 | Claude Sonnet 4 |
| 8 | Tester | 研发 | 任务型 | Claude Sonnet 4 |
| 9 | Technical Writer | 研发 | 任务型 | DeepSeek V4 |
| 10 | Release Manager | 发布 | 任务型 | DeepSeek V4 |
| 11 | Deployer | 发布 | 任务型 | Claude Sonnet 4 |
| 12 | Incident Responder | 发布 | 守护型 | Claude Sonnet 4 |
| 13 | Monitor | 运营 | 守护型 | DeepSeek V4 |
| 14 | Product Operator | 运营 | 守护型 | Claude Sonnet 4 |
| 15 | Knowledge Engineer | 运营 | 任务型 | DeepSeek V4 |
任务型 (Task Agent):执行完成即销毁,按次计费。如需求分析师、开发者、测试工程师。
守护型 (Daemon Agent):常驻后台持续运行,按月计费。如监控工程师、事故响应、产品运营。
Go 原生性能 + ReAct 执行循环 + 多 LLM 后端 + 安全沙箱 — Agent 运行时的核心
| 任务类型 | 首选模型 | 降级模型 | Temperature | 理由 |
|---|---|---|---|---|
| 架构设计 | Claude Opus 4 | DeepSeek R1 | 0.3 | 需要深度推理 |
| 代码生成 | Claude Sonnet 4 | DeepSeek V3 | 0.2 | 准确性与性能平衡 |
| 测试生成 | Claude Sonnet 4 | DeepSeek V3 | 0.1 | 精确性优先 |
| 日志分析 | GPT-4o | Claude Sonnet 4 | 0.1 | 多模态分析 |
| 简单分类 | Qwen 2.5 | DeepSeek V3 | 0.0 | 低成本 |
| 完全离线 | Ollama (本地) | Ollama | 0.2 | 无外网场景 |
不再是固定流水线 — 有向无环图 (DAG) + CEL 条件表达式 + 可组合的工作流模板
Agent 角色 = 基础 System Prompt + Skills[] (按需加载) + Tools[] — 让同一个角色适应不同技术栈
同一个"编码 Agent"面对 Go 项目需要 Go 规范、golangci-lint;面对 TypeScript 需要 ESLint、Jest。如果全塞进一个 System Prompt:过长(超出上下文窗口)、不相关知识干扰推理、难以维护。
Skill = 可组合的模块化能力单元。Agent 的 System Prompt 由基础角色 + N 个 Skill 片段动态组装,工具集也从 Skill 声明中自动聚合。
支撑 100 开发者、20+ 团队、1 万项目的隔离需求 — Docker 沙箱 + 多租户配额 + OPA 策略引擎
Workflow Trace (工作流级) → Agent Trace (Agent 级) → Iteration Trace (循环迭代级)
每层包含:LLM Call Span (模型/tokens/延迟)、Tool Call Span (工具名/参数/执行时间)、Policy Check Span (允许/拒绝/原因)。
故障发生时可以精确定位到"Agent 在第几步、调了什么工具、因为什么出错"。
阿里云 VPC 全内网部署 — ACK (K8s) + RDS + Redis + OSS + Milvus
Go 项目初始化 + LLM Provider 统一接口 + ReAct 执行循环 + 基础工具集 + Docker 沙箱 + Gitea 集成 + 多租户 + OpenTelemetry + Web 控制台 MVP
补全所有 Agent 角色 + 质量门控 + HITL 审批界面 + Terraform IaC + Helm Charts + Fan-Out 并行 + LLM 语义缓存 + 配额管理
产品设计 + 产品运营 + 事故响应 + 知识沉淀 + Skill 市场 + RBAC + SSO + API 平台 + 万级项目压测
DevFlow AI 涉及的核心架构决策与技术深水区
三个核心原因:
1. 内网部署:完全运行在阿里云 VPC 内,代码和数据不出网,LangChain 等框架依赖外网 PyPI
2. Go 原生性能:Goroutine 并发模型轻松支撑数百并行 Agent 实例,Python GIL 是瓶颈
3. 深度可控:自研可以精确控制 ReAct 循环、策略引擎、Token 预算、检查点恢复等
关键词:Harness Engineering——LLM 只是引擎里的一个可插拔组件
防止自我确认偏差 (Self-Confirmation Bias)。如果编码和审查都用 Claude Sonnet 4,同一个模型倾向于认为自己的输出是正确的。
解决方案:
• 编码 Agent 使用 Claude Sonnet 4
• 审查 Agent 使用 GPT-4o 或 Claude Opus 4(不同模型)
• 审查 Agent 不继承编码 Agent 的上下文历史,独立从 Git Diff 开始分析
这是 2026 年 Multi-Agent 系统的核心设计原则之一。
使用 CEL (Common Expression Language) 表达式作为边的条件:
• 条件分支:stages.testing.quality_gate.passed == true → deploy,false → coding
• 循环重试:失败边指回上游阶段,如测试失败→编码→测试,最多重试 N 次
• 跳过阶段:skip_condition: "stages.design.output.migration_plan == null" 无迁移计划时跳过 DB 迁移
• 并行执行:DAG 拓扑排序后,入度相同且无相互依赖的阶段可以并行
核心问题:同一个 Agent 角色面对不同技术栈需要不同知识。如编码 Agent 对 Go 项目需要 Go 规范,对 TS 项目需要 TS 规范。
组装流程:
1. 显式指定:工作流模板中声明 skills: [go_development, git_workflow]
2. 自动检测:ProjectDetector 扫描项目(go.mod → Go, package.json → TS)
3. 依赖解析:go_testing 依赖 go_development,拓扑排序
4. 互斥检查:go_development 与 ts_development 互斥
5. Prompt 组装:最终 System Prompt = Base + Skill1.prompt + Skill2.prompt + Examples
6. 工具聚合:从所有 Skill 的 tools 字段自动去重聚合
关键设计决策:只有无依赖的任务才能 Fan-Out,依赖链串行执行。
• 架构设计 Agent 输出的 coding_tasks 带有 dependencies: ["TASK-1"] 依赖声明
• Orchestrator 的 DAG 引擎解析依赖图,将任务分组:独立组并行,依赖链串行
• Git 策略:一个工作流使用一个 feature 分支,所有 Task 串行提交到同一分支
• 同一 Feature 分支共享一个沙箱容器,串行任务复用工作目录
原则:能用串行就别用并行——复杂度是有代价的
产品运营 Agent 是闭环的关键节点。它持续分析:
• 功能采用率:追踪每个功能的 DAU、留存影响
• A/B 测试:分析实验结果,推荐全量/回滚
• 用户反馈:从 Gitea Issues / 客服系统提取痛点和需求
• 增长指标:DAU/MAU/留存/转化率/流失率
输出自动路由:
• 新功能建议 → 触发 product_design 阶段
• 改进项 → 直接触发 requirement_analysis 阶段
• A/B 测试结论 → 触发 coding(全量切换)
• 下线建议 → 触发 coding + deployment(功能移除)
DB 迁移是独立阶段 (Stage 6),有严格的安全机制:
1. 安全检查:自动检测破坏性变更(DROP COLUMN/TABLE)
2. 影响评估:查询影响行数、预估锁表时间
3. 回滚脚本:自动生成对应的回滚 SQL
4. Staging 验证:先在 Staging 环境验证迁移
5. 人工审批:approval: true — 数据库变更必须人工审批
6. 部署顺序:部署 Agent 内置"迁移优先"策略 — 先执行迁移再部署代码
输出中包含 recommendation: "safe|caution|dangerous" 等级判定
单次全流程预估:~420K 输入 Token + ~200K 输出 Token ≈ $1.94(含 3 个并行编码任务)
成本控制机制:
1. 智能路由:简单任务用低成本模型(Qwen/DeepSeek),复杂推理才用 Opus
2. Token 预算:每个 Agent 有 MaxTokenBudget,超出自动终止
3. 上下文压缩:对话过长时自动 Compact,移除冗余信息
4. 语义缓存:重复的 LLM 调用命中缓存,减少 API 请求
5. 团队配额:按团队规模设置每日 Token 上限
守护型 Agent 月成本约 $55(监控+运营+事故响应)