🔮 Dora's Wiki

❯

❯

照片/媒体管理

照片/媒体管理

2026年4月04日3分钟阅读

media
coding
automation

概述

照片/媒体管理项目（184条消息）是一个围绕个人视频/照片库的 AI 辅助管理系统。核心功能包括文件分类整理、AI 智能筛选（废片检测）、高光片段提取、自动剪辑管线（fcpxml/ffmpeg）以及 Story 叙事编排。

关键事件

2026-03-07: 开始按标题分类整理媒体文件，第一层目录不超过 6 个，使用中文目录名
2026-03-10: 讨论 AI 图片识别成本问题，确定”先非AI粗筛、再便宜视觉模型精筛”方案
2026-03-15: 使用 ffmpeg 抽关键帧 + ImageMagick 做零成本预处理
2026-03-21: 开发 DronePicker 视频管理 Web 应用，实现评分/标签/筛选功能
2026-03-21: 完成 20 个测试视频初筛（9 个 selected + 11 个 rejected）
2026-03-21: 生成 9×9 拼图网格验证视觉效果，连续天合并分组显示
2026-03-21: 生成 fcpxml 测试文件（v1-v5 迭代），遇到剪映兼容性问题
2026-03-22: 转向纯 ffmpeg 方案（方案A），自动化渲染 5 个版本
2026-03-22: 记录 Azure 上的 gpt-image-1.5 和 sora-2 模型 API 信息
2026-03-22: 发现剪映支持 MCP，开始研究 capcut-mcp 集成

技术方案

AI 分层策略: GPT-5.4 负责审美选片，GPT-4o 负责结构化编排
拼图方案: 每个高光片段取 1 帧关键帧，拼成网格大图，一次 API 调用
自动剪辑管线: ffmpeg xfade 转场 + amix 音乐叠加 → 一键出成品 mp4
分块渲染: 32 个视频分 4 组，每组 8 个独立渲染后合并

经验教训

fcpxml 格式在剪映中兼容性不稳定，不适合作为主要输出格式
ffmpeg 复杂滤镜链处理大量片段时可能内存溢出，需分块渲染
无音轨片段会导致音频滤镜链中断，需预先填充静音
AI 审美判断应交给强模型（5.4），结构化排序交给经济模型（4o）

相关主题

voice-synthesis
fries-mac
azure-vm-management

关系图谱

概述
关键事件
技术方案
经验教训
相关主题

反向链接

小小薯条 (fries-mac)
Wiki Index

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community