概述

照片/媒体管理项目(184条消息)是一个围绕个人视频/照片库的 AI 辅助管理系统。核心功能包括文件分类整理、AI 智能筛选(废片检测)、高光片段提取、自动剪辑管线(fcpxml/ffmpeg)以及 Story 叙事编排。

关键事件

  • 2026-03-07: 开始按标题分类整理媒体文件,第一层目录不超过 6 个,使用中文目录名
  • 2026-03-10: 讨论 AI 图片识别成本问题,确定”先非AI粗筛、再便宜视觉模型精筛”方案
  • 2026-03-15: 使用 ffmpeg 抽关键帧 + ImageMagick 做零成本预处理
  • 2026-03-21: 开发 DronePicker 视频管理 Web 应用,实现评分/标签/筛选功能
  • 2026-03-21: 完成 20 个测试视频初筛(9 个 selected + 11 个 rejected)
  • 2026-03-21: 生成 9×9 拼图网格验证视觉效果,连续天合并分组显示
  • 2026-03-21: 生成 fcpxml 测试文件(v1-v5 迭代),遇到剪映兼容性问题
  • 2026-03-22: 转向纯 ffmpeg 方案(方案A),自动化渲染 5 个版本
  • 2026-03-22: 记录 Azure 上的 gpt-image-1.5 和 sora-2 模型 API 信息
  • 2026-03-22: 发现剪映支持 MCP,开始研究 capcut-mcp 集成

技术方案

  • AI 分层策略: GPT-5.4 负责审美选片,GPT-4o 负责结构化编排
  • 拼图方案: 每个高光片段取 1 帧关键帧,拼成网格大图,一次 API 调用
  • 自动剪辑管线: ffmpeg xfade 转场 + amix 音乐叠加 → 一键出成品 mp4
  • 分块渲染: 32 个视频分 4 组,每组 8 个独立渲染后合并

经验教训

  • fcpxml 格式在剪映中兼容性不稳定,不适合作为主要输出格式
  • ffmpeg 复杂滤镜链处理大量片段时可能内存溢出,需分块渲染
  • 无音轨片段会导致音频滤镜链中断,需预先填充静音
  • AI 审美判断应交给强模型(5.4),结构化排序交给经济模型(4o)

相关主题