SentrySearch视频搜索分析
开源项目 SentrySearch 实现自然语言搜索视频内容,通过视频原生嵌入直接将像素映射到向量空间。
概述
SentrySearch 是一个爆火的开源项目(⭐ 2454),核心功能是用自然语言搜索视频内容并自动剪出匹配片段。其技术原理是将视频直接嵌入向量空间(不经过文字中间层),然后通过语义匹配找到最相关的视频片段。
团队对该项目进行了调研,评估了本地部署的硬件要求和使用成本。结论是家用场景下使用 Gemini API 免费额度基本够用,本地部署推荐使用 Mac Mini M4 Pro (24GB) 或 NVIDIA RTX 4090 台式机。
关键点
- 核心技术: 视频原生嵌入——直接把视频像素映射到向量空间,不经过 OCR 或语音转文字
- 支持模型: Gemini Embedding 2(云端)或 Qwen3-VL(本地)
- 处理流程: 视频切成 30 秒重叠片段 → 嵌入向量空间 → 语义匹配 → 自动裁剪
- Cohere 不兼容: Cohere Embed 只支持文本和图片,不支持视频嵌入
- 已有 OpenClaw Skill: ClawHub 上有现成的 SentrySearch 技能
两种运行模式
☁️ Gemini API 模式
- 效果最好
- 成本约 $2.84/小时视频
- 免费额度:每分钟 1500 次 embedding 请求
- 家用监控场景(每天几小时录像)免费额度基本够用
- 静止画面自动跳过,节省消耗
🏠 本地 Qwen3-VL 模式
- 完全免费离线
- 8B 模型需要 24GB+ 显存/内存
- 2B 模型需要 16GB,效果相对差一些
技术细节
硬件推荐
| 设备 | 价格 | 能力 |
|---|---|---|
| 🏆 Mac Mini M4 Pro (24GB) | ~1万 | 跑满血 8B,安静省电 |
| 💪 NVIDIA RTX 4090 台式机 | 2万+ | bf16 全精度 8B,速度最快 |
| 💰 NVIDIA RTX 4060 Ti 16GB | ~3000 卡 | 4bit 量化跑 8B |
MacBook M2 Pro 16GB 兼容性
- ❌ 8B 模型需要 24GB+,16GB 不够
- ✅ 2B 模型占 ~6GB 内存,可以跑
- 推荐方案:直接用 Gemini API,Mac 只负责切视频和上传
特色功能
- Tesla 行车记录仪 HUD 叠加(加速度/GPS/路名)
- 自动跳过静止画面节省 API 费用
- 自动裁剪最佳匹配片段
成本估算
- 1 小时视频 ≈ 120 个 30 秒片段
- Gemini 免费额度每天够索引几小时视频
- 搜索几乎不花钱(纯文本 embedding)
- 全天 24 小时录像场景需付费或本地部署
实用场景
- 监控录像回看(如”红色卡车闯红灯”)
- 行车记录仪视频搜索
- 安防视频智能检索
时间线
- 2026-03-30: 调研 SentrySearch 项目,分析技术原理和部署方案
- 2026-03-30: 评估与 Cohere 的兼容性(不兼容)
- 2026-03-30: 评估本地部署硬件要求和成本