2026-05-12 移动端播放器去 controls + loop vs goNext 抉择
手机端体验反馈:HTML5 <video controls> 整套(播放/进度条/音量/全屏)会把画面挡住、UX 差,但 controls 是不可拆的,没法只藏「前进后退」。决定走方案 1 —— 完全删 controls,加 onClick tap-to-pause 替代。涉及 web/src/App.tsx 两处 <video>(~744、~854 行),CC 派单完成。
沉浸式查看器另一个语义冲突:<video loop> 和 onEnded → goNext 不能共存 —— loop 让 onEnded 永不触发,自动跳下一段失效。爸爸侧待决:删 loop(自动连播 / 单段不循环)vs 保留 loop(单段循环 / 手动滑切)。
2026-05-09 移动端 TikTok-style feed + vite proxy 强约束
桌面端瀑布流已稳定,新增竖屏 mobile feed:一屏一视频、上下滑切换、自动播放、双击点赞。坑:iOS Safari 直接命中 8902 API 端口被 mixed-content / 跨源拦;同源 vite proxy(/api/*、/thumbnails/*、/video/* → http://localhost:8902)才稳——三个前缀都得在 web/vite.config.ts 的 server.proxy 列出。沉淀铁律:所有前端调后端必走 vite server.proxy,组件里只用相对路径,禁止 ${API_BASE} / http://...:8902 / window.location.hostname 硬编码,便于将来切域名/HTTPS。约定写进 drone-picker/CLAUDE.md,让 CC 改代码时自动遵守;2026-05-09 ottor-laptop 派 CC 一次性把 App.tsx / SyncLog.tsx 的 API_BASE 残留全部清零并 build 通过。
2026-05-08 内网访问 + AI 视频剪辑工具调研
DronePicker 内网入口
- UI:
http://192.168.1.133:5173/ - API:
http://192.168.1.133:8902/ - 复发坑:rolldown native binding 偶发掉链,每次
pnpm install后需要重装平台对应 native 包才能起 dev。
HyperFrames 评估(HeyGen, Apache 2.0)
HeyGen 2026-04 开源的 HTML→MP4 渲染框架。定位:让 AI Agent vibe-code 一份 HTML/CSS/JS 模板,框架负责 headless 浏览器抓帧合成 MP4。结论:不适合无人机视频剪辑——它解决的是”程序化生成动效视频”,不是”从一堆素材里挑高光剪成片”。仅作为未来生成开场片头/字幕条的备选。
Reap (reap.video) — 推荐替换 GPT-4o 评分
AI 无人机视频剪辑 SaaS,$9.99/mo,API + CLI + MCP 三件套齐全。可以替代当前 DronePicker 里 GPT-5.4/4o 的打分+排序逻辑,免去自己维护 prompt + token 成本。
Tavily 搜索 skill
新建 tavily skill 用于工具调研搜索;API key 入 vault tavily/TAVILY_API_KEY(tvly-...)。
概述
照片/媒体管理项目(184条消息)是一个围绕个人视频/照片库的 AI 辅助管理系统。核心功能包括文件分类整理、AI 智能筛选(废片检测)、高光片段提取、自动剪辑管线(fcpxml/ffmpeg)以及 Story 叙事编排。
关键事件
- 2026-03-07: 开始按标题分类整理媒体文件,第一层目录不超过 6 个,使用中文目录名
- 2026-03-10: 讨论 AI 图片识别成本问题,确定”先非AI粗筛、再便宜视觉模型精筛”方案
- 2026-03-15: 使用 ffmpeg 抽关键帧 + ImageMagick 做零成本预处理
- 2026-03-21: 开发 DronePicker 视频管理 Web 应用,实现评分/标签/筛选功能
- 2026-03-21: 完成 20 个测试视频初筛(9 个 selected + 11 个 rejected)
- 2026-03-21: 生成 9×9 拼图网格验证视觉效果,连续天合并分组显示
- 2026-03-21: 生成 fcpxml 测试文件(v1-v5 迭代),遇到剪映兼容性问题
- 2026-03-22: 转向纯 ffmpeg 方案(方案A),自动化渲染 5 个版本
- 2026-03-22: 记录 Azure 上的 gpt-image-1.5 和 sora-2 模型 API 信息
- 2026-03-22: 发现剪映支持 MCP,开始研究 capcut-mcp 集成
技术方案
- AI 分层策略: GPT-5.4 负责审美选片,GPT-4o 负责结构化编排
- 拼图方案: 每个高光片段取 1 帧关键帧,拼成网格大图,一次 API 调用
- 自动剪辑管线: ffmpeg xfade 转场 + amix 音乐叠加 → 一键出成品 mp4
- 分块渲染: 32 个视频分 4 组,每组 8 个独立渲染后合并
经验教训
- fcpxml 格式在剪映中兼容性不稳定,不适合作为主要输出格式
- ffmpeg 复杂滤镜链处理大量片段时可能内存溢出,需分块渲染
- 无音轨片段会导致音频滤镜链中断,需预先填充静音
- AI 审美判断应交给强模型(5.4),结构化排序交给经济模型(4o)