项目概览
OpenMontage 今日以 2,938 ⭐ 的单日新增星数登顶 GitHub Trending,总星数已达 13,499,Fork 数 1,650。它是全球首个开源、Agent 驱动的视频制作系统。
核心理念极具颠覆性:把你的 AI 编程助手变成一个完整的视频制作工作室。 用自然语言描述你想要的内容 —— Agent 自动处理研究、剧本编写、素材生成、剪辑和最终合成。
重要区别:OpenMontage 制作的不是"几张静态图动起来"的假视频,而是真正的视频 —— Agent 从免费素材和开放档案中构建动态剪辑语料库,检索实际镜头,编辑到时间轴中,并渲染出成品。
核心数据
| 维度 | 数据 |
|---|---|
| ⭐ 总星数 | 13,499 |
| 🚀 今日新增 | 2,938 |
| 🔀 Fork 数 | 1,650 |
| 🐍 语言 | Python |
| 📜 许可证 | GNU AGPLv3 |
| 🎬 制作管线 | 12 条 |
| 🛠️ 工具 | 52 个 |
| 🤖 Agent 技能 | 500+ |
Agent 优先架构
OpenMontage 的架构设计独树一帜:没有代码编排器,你的 AI 编程助手就是编排器。
工作流程如下:
|
|
每条管线遵循统一的结构化流程:研究 → 提案 → 剧本 → 场景计划 → 素材 → 剪辑 → 合成。每个阶段都有专门的导演技能 —— 一个 Markdown 指令文件,教导 Agent 如何执行该阶段。
三层知识架构
|
|
12 条制作管线
| 管线 | 产出内容 | 最佳用途 |
|---|---|---|
| 动画讲解 | AI 生成讲解视频(研究+旁白+视觉+音乐) | 教育内容、教程、主题解析 |
| 动画 | 动态图形、动感排版、动画序列 | 社交媒体、产品演示 |
| 虚拟形象代言人 | 虚拟形象驱动的演示视频 | 企业通讯、培训 |
| 电影级 | 预告片、先行片、情绪驱动剪辑 | 品牌影片、宣传内容 |
| 剪辑工厂 | 从长内容批量生成精选短视频 | 社交媒体内容复用 |
| 纪录片蒙太奇 | 从免费素材档案剪辑的主题蒙太奇 | 视频论文、情绪片 |
| 混合 | 源素材 + AI 辅助视觉 | 用图形增强现有素材 |
| 本地化和配音 | 字幕、配音、翻译 | 多语言分发 |
| 播客重新利用 | 播客精彩片段转视频 | 播客营销 |
| 屏幕演示 | 软件屏幕录制和演示 | 产品演示、教程 |
| 人物讲话 | 素材主导的演讲者视频 | 演示、视频博客 |
支持 8 种输出平台:YouTube 横屏 (1920×1080)、YouTube 4K (3840×2160)、YouTube Shorts (1080×1920)、Instagram Reels、TikTok、LinkedIn、电影级 (2560×1080) 等。
零 API 密钥的免费能力
这是 OpenMontage 最吸引人的特点之一 —— 无需任何 API 密钥即可开始制作视频:
| 能力 | 免费工具 | 说明 |
|---|---|---|
| 🎙️ 旁白 | Piper TTS | 免费离线文本转语音 |
| 📦 开放素材 | Archive.org + NASA + Wikimedia Commons | 免费/开放档案素材 |
| 📸 额外素材 | Pexels + Unsplash + Pixabay | 免费素材库(开发者密钥免费获取) |
| 🎨 合成 (React) | Remotion | 基于 React 的渲染引擎 |
| 🎨 合成 (HTML/GSAP) | HyperFrames | HTML/CSS/GSAP 渲染 |
| ✂️ 后期制作 | FFmpeg | 编码、字幕、音频混音、色彩分级 |
| 📝 字幕 | 内置 | 自动生成字幕(词级时间对齐) |
三条免费路径:
- 基于图像的视频:Piper 叙述 + 图像视觉 + Remotion 动画
- 本地角色动画:SVG 骨骼 + 姿势库 + GSAP 时间轴
- 真实素材视频:纪录片蒙太奇管线从开放档案构建 CLIP 可搜索语料库
供应商生态:14 个视频 + 10 个图像 + 4 个 TTS
视频生成(14 个提供商)
Kling / Runway Gen-4 / Google Veo 3 / Grok Imagine Video / Higgsfield / MiniMax / HeyGen / WAN 2.1 (本地GPU) / Hunyuan (本地GPU) / CogVideo (本地GPU) / LTX-Video (本地GPU) / Pexels / Pixabay / Wikimedia Commons
图像生成(10 个工具)
FLUX / Google Imagen / Grok Imagine Image / DALL-E 3 / Recraft / 本地扩散模型 / Pexels / Pixabay / Unsplash / ManimCE
语音(4 个提供商)
ElevenLabs / Google TTS (700+ 声音) / OpenAI TTS / Piper (本地离线)
音乐和后期
Suno AI / ElevenLabs Music / FFmpeg 全套后期能力
评分供应商选择器
每次选择工具时,Agent 跨 7 个维度 自动评分:
| 维度 | 权重 |
|---|---|
| 任务匹配度 | 30% |
| 输出质量 | 20% |
| 控制功能 | 15% |
| 可靠性 | 15% |
| 成本效率 | 10% |
| 延迟 | 5% |
| 连续性 | 5% |
每个重大决策都记录备选方案、置信度分数和推理,形成完整的决策审计追踪。
预算管理
OpenMontage 内置了企业级的成本管控:
- 估算:执行前查看成本
- 预留:调用前锁定资金
- 对账:记录实际支出
- 可配置模式:
observe(仅跟踪)/warn(超支记录)/cap(硬性限制) - 每项操作审批:超阈值暂停确认(默认 $0.50)
- 总预算上限:默认 $10,完全可配置
实际成本参考
| 示例视频 | 风格 | 成本 |
|---|---|---|
| “Afternoon in Candyland” | 吉卜力风格动画 | $0.15 |
| “Mori no Seishin” | 森林精灵动画 | $0.15 |
| “Into the Abyss” | 深海探索动漫 | $0.15 |
| “VOID — Neural Interface” | 产品广告 | $0.69 |
| “THE LAST BANANA” | 皮克斯风格动画短片 | $1.33 |
质量门禁体系
OpenMontage 不满足于"能出视频就行",而是建立了生产级的质量管控:
- 合成前验证:交付承诺被违反则阻止渲染
- 渲染后自我审查:ffprobe 验证、帧提取(检查黑帧和破损叠加)、音频分析
- 幻灯片风险评分:6 维度分析防止"动画 PowerPoint"输出
- 源媒体检查:探测每个文件(分辨率、编解码器、音频通道、时长)
Agent 兼容性
| 平台 | 配置方式 |
|---|---|
| Claude Code | CLAUDE.md |
| Cursor | CURSOR.md + .cursor/rules/ |
| GitHub Copilot | COPILOT.md + .github/copilot-instructions.md |
| Codex | CODEX.md |
| Windsurf | .windsurfrules |
即将支持通过 Ollama 和 LM Studio 的本地 LLM。
安装与使用
|
|
前提条件:Python 3.10+、FFmpeg、Node.js 18+、一个 AI 编程助手。
使用示例
|
|
项目亮点总结
- Agent 优先设计:不依赖代码编排器,AI 编程助手本身就是编排器,Agent 自主完成研究、剧本、素材、剪辑、合成全流程
- 真正的视频制作:不是图片幻灯片加旁白,而是从实际动态素材剪辑、编辑到时间轴、渲染输出的完整视频
- 零成本入门:Piper TTS + 开放档案素材 + Remotion/FFmpeg 全免费路径
- 无供应商锁定:14 个视频提供商、10 个图像工具、4 个 TTS 引擎,自由切换
- 生产级质量管控:合成前验证、渲染后自审、幻灯片风险评分 —— 不只是"能用",要"够好"
- 完整的决策审计:每个工具选择跨 7 维度评分,每个创意决策留有置信度和推理记录
- 多平台输出:8 种预设分辨率/宽高比配置,覆盖主流社交平台
OpenMontage 代表了 AI 智能体在创意内容生产领域的一个重要突破 —— 将代码辅助从传统软件开发延伸到视频制作这一全新领域,让任何人只需用自然语言描述想法,就能获得一支完整的 AI 视频制作团队。