Featured image of post GitHub Trending 今日第一:OpenMontage — 全球首个开源 AI Agent 视频制作系统

GitHub Trending 今日第一:OpenMontage — 全球首个开源 AI Agent 视频制作系统

OpenMontage 是 GitHub 今日 Trending 榜首项目,全球首个开源、Agent 驱动的视频制作系统。拥有 12 条制作管线、52 个工具、500+ Agent 技能,将 AI 编程助手变成完整视频工作室。支持零 API 密钥免费使用,真正的视频编辑而非图片幻灯片。

项目概览

OpenMontage 今日以 2,938 ⭐ 的单日新增星数登顶 GitHub Trending,总星数已达 13,499,Fork 数 1,650。它是全球首个开源、Agent 驱动的视频制作系统。

核心理念极具颠覆性:把你的 AI 编程助手变成一个完整的视频制作工作室。 用自然语言描述你想要的内容 —— Agent 自动处理研究、剧本编写、素材生成、剪辑和最终合成。

重要区别:OpenMontage 制作的不是"几张静态图动起来"的假视频,而是真正的视频 —— Agent 从免费素材和开放档案中构建动态剪辑语料库,检索实际镜头,编辑到时间轴中,并渲染出成品。

核心数据

维度 数据
⭐ 总星数 13,499
🚀 今日新增 2,938
🔀 Fork 数 1,650
🐍 语言 Python
📜 许可证 GNU AGPLv3
🎬 制作管线 12 条
🛠️ 工具 52 个
🤖 Agent 技能 500+

Agent 优先架构

OpenMontage 的架构设计独树一帜:没有代码编排器,你的 AI 编程助手就是编排器。

工作流程如下:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
你: "制作一个关于黑洞如何形成的讲解视频"
Agent 读取管线清单 (YAML)  -- 阶段、工具、审查标准、成功门禁
Agent 读取阶段导演技能 (Markdown)  -- 如何执行每个阶段
Agent 调用 Python 工具  -- 评分选择器跨 7 个维度排名每个工具
Agent 使用审查者技能自我审查  -- 模式验证、规范合规、质量检查
Agent 检查点状态 (JSON)  -- 可恢复,带决策日志和成本快照
Agent 提交审批  -- 你在每个创意决策中保持控制
合成前验证门禁  -- 交付承诺、幻灯片风险、渲染器治理
渲染 (Remotion 或 FFmpeg)
渲染后自我审查  -- ffprobe、帧提取、音频分析、承诺验证
最终视频输出

每条管线遵循统一的结构化流程:研究 → 提案 → 剧本 → 场景计划 → 素材 → 剪辑 → 合成。每个阶段都有专门的导演技能 —— 一个 Markdown 指令文件,教导 Agent 如何执行该阶段。

三层知识架构

1
2
3
Layer 1: tools/ + pipeline_defs/     "存在什么"  可执行能力 + 编排
Layer 2: skills/                     "如何使用"  约定和质量标准
Layer 3: .agents/skills/             "如何工作"  外部技术知识包

12 条制作管线

管线 产出内容 最佳用途
动画讲解 AI 生成讲解视频(研究+旁白+视觉+音乐) 教育内容、教程、主题解析
动画 动态图形、动感排版、动画序列 社交媒体、产品演示
虚拟形象代言人 虚拟形象驱动的演示视频 企业通讯、培训
电影级 预告片、先行片、情绪驱动剪辑 品牌影片、宣传内容
剪辑工厂 从长内容批量生成精选短视频 社交媒体内容复用
纪录片蒙太奇 从免费素材档案剪辑的主题蒙太奇 视频论文、情绪片
混合 源素材 + AI 辅助视觉 用图形增强现有素材
本地化和配音 字幕、配音、翻译 多语言分发
播客重新利用 播客精彩片段转视频 播客营销
屏幕演示 软件屏幕录制和演示 产品演示、教程
人物讲话 素材主导的演讲者视频 演示、视频博客

支持 8 种输出平台:YouTube 横屏 (1920×1080)、YouTube 4K (3840×2160)、YouTube Shorts (1080×1920)、Instagram Reels、TikTok、LinkedIn、电影级 (2560×1080) 等。


零 API 密钥的免费能力

这是 OpenMontage 最吸引人的特点之一 —— 无需任何 API 密钥即可开始制作视频

能力 免费工具 说明
🎙️ 旁白 Piper TTS 免费离线文本转语音
📦 开放素材 Archive.org + NASA + Wikimedia Commons 免费/开放档案素材
📸 额外素材 Pexels + Unsplash + Pixabay 免费素材库(开发者密钥免费获取)
🎨 合成 (React) Remotion 基于 React 的渲染引擎
🎨 合成 (HTML/GSAP) HyperFrames HTML/CSS/GSAP 渲染
✂️ 后期制作 FFmpeg 编码、字幕、音频混音、色彩分级
📝 字幕 内置 自动生成字幕(词级时间对齐)

三条免费路径:

  1. 基于图像的视频:Piper 叙述 + 图像视觉 + Remotion 动画
  2. 本地角色动画:SVG 骨骼 + 姿势库 + GSAP 时间轴
  3. 真实素材视频:纪录片蒙太奇管线从开放档案构建 CLIP 可搜索语料库

供应商生态:14 个视频 + 10 个图像 + 4 个 TTS

视频生成(14 个提供商)

Kling / Runway Gen-4 / Google Veo 3 / Grok Imagine Video / Higgsfield / MiniMax / HeyGen / WAN 2.1 (本地GPU) / Hunyuan (本地GPU) / CogVideo (本地GPU) / LTX-Video (本地GPU) / Pexels / Pixabay / Wikimedia Commons

图像生成(10 个工具)

FLUX / Google Imagen / Grok Imagine Image / DALL-E 3 / Recraft / 本地扩散模型 / Pexels / Pixabay / Unsplash / ManimCE

语音(4 个提供商)

ElevenLabs / Google TTS (700+ 声音) / OpenAI TTS / Piper (本地离线)

音乐和后期

Suno AI / ElevenLabs Music / FFmpeg 全套后期能力


评分供应商选择器

每次选择工具时,Agent 跨 7 个维度 自动评分:

维度 权重
任务匹配度 30%
输出质量 20%
控制功能 15%
可靠性 15%
成本效率 10%
延迟 5%
连续性 5%

每个重大决策都记录备选方案、置信度分数和推理,形成完整的决策审计追踪。


预算管理

OpenMontage 内置了企业级的成本管控:

  • 估算:执行前查看成本
  • 预留:调用前锁定资金
  • 对账:记录实际支出
  • 可配置模式observe(仅跟踪)/ warn(超支记录)/ cap(硬性限制)
  • 每项操作审批:超阈值暂停确认(默认 $0.50)
  • 总预算上限:默认 $10,完全可配置

实际成本参考

示例视频 风格 成本
“Afternoon in Candyland” 吉卜力风格动画 $0.15
“Mori no Seishin” 森林精灵动画 $0.15
“Into the Abyss” 深海探索动漫 $0.15
“VOID — Neural Interface” 产品广告 $0.69
“THE LAST BANANA” 皮克斯风格动画短片 $1.33

质量门禁体系

OpenMontage 不满足于"能出视频就行",而是建立了生产级的质量管控:

  1. 合成前验证:交付承诺被违反则阻止渲染
  2. 渲染后自我审查:ffprobe 验证、帧提取(检查黑帧和破损叠加)、音频分析
  3. 幻灯片风险评分:6 维度分析防止"动画 PowerPoint"输出
  4. 源媒体检查:探测每个文件(分辨率、编解码器、音频通道、时长)

Agent 兼容性

平台 配置方式
Claude Code CLAUDE.md
Cursor CURSOR.md + .cursor/rules/
GitHub Copilot COPILOT.md + .github/copilot-instructions.md
Codex CODEX.md
Windsurf .windsurfrules

即将支持通过 Ollama 和 LM Studio 的本地 LLM。


安装与使用

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
# 克隆并安装
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup

# 如果没有 make:
pip install -r requirements.txt && cd remotion-composer && npm install && cd .. && pip install piper-tts && cp .env.example .env

# 可选:GPU 本地视频生成
make install-gpu

前提条件:Python 3.10+、FFmpeg、Node.js 18+、一个 AI 编程助手。

使用示例

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
# 零密钥,纯免费
"制作一个 45 秒的动画讲解视频,解释为什么天空是蓝色的"

# 免费真实素材纪录片
"制作一个 90 秒的纪录片蒙太奇,关于凌晨 4 点城市的感觉。只用真实素材,无旁白,哀歌基调。"

# 配置 API 后 (~$0.15-$1.50)
"创建一个 30 秒吉卜力风格的动画,关于黄金时刻云端中的魔法漂浮图书馆"

# 从参考视频开始
"这是我喜欢的 YouTube Short。帮我做一个类似的,但关于量子计算。"

项目亮点总结

  1. Agent 优先设计:不依赖代码编排器,AI 编程助手本身就是编排器,Agent 自主完成研究、剧本、素材、剪辑、合成全流程
  2. 真正的视频制作:不是图片幻灯片加旁白,而是从实际动态素材剪辑、编辑到时间轴、渲染输出的完整视频
  3. 零成本入门:Piper TTS + 开放档案素材 + Remotion/FFmpeg 全免费路径
  4. 无供应商锁定:14 个视频提供商、10 个图像工具、4 个 TTS 引擎,自由切换
  5. 生产级质量管控:合成前验证、渲染后自审、幻灯片风险评分 —— 不只是"能用",要"够好"
  6. 完整的决策审计:每个工具选择跨 7 维度评分,每个创意决策留有置信度和推理记录
  7. 多平台输出:8 种预设分辨率/宽高比配置,覆盖主流社交平台

OpenMontage 代表了 AI 智能体在创意内容生产领域的一个重要突破 —— 将代码辅助从传统软件开发延伸到视频制作这一全新领域,让任何人只需用自然语言描述想法,就能获得一支完整的 AI 视频制作团队。


项目地址:https://github.com/calesthio/OpenMontage