多模态内容生成 Agent

文案 → 分镜 → 图像 → 视频的工作流编排

一、产品设计

1. 目标用户与场景

目标用户：短视频生产者、新媒体运营
核心场景：（1）日常批量生产短视频；（2）营销活动快速出多版本测试；（3）无团队、无拍摄条件下，仅凭文字生成视频

2. 痛点

写文案慢：不会写爆款结构、标题、话题标签
文案→视频转化难：不会分镜设计，找素材耗时
成本高：外包做一条视频几百上千元，自己做耗时几小时

3. 产品价值

效率和成本：3小时 → 10分钟出一条视频；成本大幅降低
低门槛：无需绘画、剪辑、导演知识
可控性：分镜级修改，角色/场景跨分镜一致

4. 产品功能

文本生成：输入主题，生成视频脚本
分镜设计：自动将脚本拆解为分镜（分镜文案、图片提示词、文案英文翻译）。
图片生成：根据提示词，生成分镜图片（含字幕）。
视频合成：将分镜图片、文案音频、BGM合成视频。

二、流程图

以下为 Demo 阶段主链路示意，便于对齐模块边界与数据流。

Step 1需求输入主题 / 人工文案

Step 2文案生成LLM生成专业文案，自定义文案风格

Step 3分镜设计LLM设计分镜，自定义镜头风格

Step 4图像生成图片大模型按照分镜提示词生成图片

Step 5视频合成将分镜图片、文案音频、BGM合成视频

三、 AI 落地设计

多Agent协同/工作流编排：按原子能力拆分任务，文案、分镜、图片、视频多Agent协同，提高每个环节质量。

个性化要素参数化：文案风格、镜头风格、分镜时长等参数化，动态注入到提示词中。

成本控制：按步骤缓存中间产物；失败重试只重跑失败节点，不把整条 DAG 从头跑。

四、 Demo → 产品化 / 规模化

从可演示到可交付，还需要补齐以下维度。

队列与 SLA：并发、优先级、失败补偿与可观测性（每步耗时、失败率）。
版权与合规：肖像、音乐、字体、平台发布规则的自动校验与人工复核流。
质量评测：主观分 + 客观指标（节奏、字幕可读性、画面闪烁等）闭环。

五、 Demo 展示

文案生成占位 — 文案生成示例

分镜生成占位 — 分镜生成示例

分镜结果占位 — 分镜结果示例

流程设计占位 — MVP流程设计

文案到视频成片演示 — T2V 合成成片（示例）