返回 AI LAB
多模态内容生成 Agent
文案 → 分镜 → 图像 → 视频 的工作流编排
一、 产品设计
1. 目标用户与场景
- 目标用户:短视频生产者、新媒体运营
- 核心场景:(1)日常批量生产短视频;(2)营销活动快速出多版本测试;(3)无团队、无拍摄条件下,仅凭文字生成视频
2. 痛点
- 写文案慢:不会写爆款结构、标题、话题标签
- 文案→视频转化难:不会分镜设计,找素材耗时
- 成本高:外包做一条视频几百上千元,自己做耗时几小时
3. 产品价值
- 效率和成本:3小时 → 10分钟出一条视频;成本大幅降低
- 低门槛:无需绘画、剪辑、导演知识
- 可控性:分镜级修改,角色/场景跨分镜一致
4. 产品功能
- 文本生成:输入主题,生成视频脚本
- 分镜设计:自动将脚本拆解为分镜(分镜文案、图片提示词、文案英文翻译)。
- 图片生成:根据提示词,生成分镜图片(含字幕)。
- 视频合成:将分镜图片、文案音频、BGM合成视频。
二、 流程图
以下为 Demo 阶段主链路示意,便于对齐模块边界与数据流。
Step 1需求输入主题 / 人工文案
Step 2文案生成LLM生成专业文案,自定义文案风格
Step 3分镜设计LLM设计分镜,自定义镜头风格
Step 4图像生成图片大模型按照分镜提示词生成图片
Step 5视频合成将分镜图片、文案音频、BGM合成视频
三、 AI 落地设计
多Agent协同/工作流编排:按原子能力拆分任务,文案、分镜、图片、视频多Agent协同,提高每个环节质量。
个性化要素参数化:文案风格、镜头风格、分镜时长等参数化,动态注入到提示词中。
成本控制:按步骤缓存中间产物;失败重试只重跑失败节点,不把整条 DAG 从头跑。
四、 Demo → 产品化 / 规模化
从可演示到可交付,还需要补齐以下维度。
- 队列与 SLA:并发、优先级、失败补偿与可观测性(每步耗时、失败率)。
- 版权与合规:肖像、音乐、字体、平台发布规则的自动校验与人工复核流。
- 质量评测:主观分 + 客观指标(节奏、字幕可读性、画面闪烁等)闭环。