SentrySearch视频搜索分析

开源项目 SentrySearch 实现自然语言搜索视频内容,通过视频原生嵌入直接将像素映射到向量空间。

概述

SentrySearch 是一个爆火的开源项目(⭐ 2454),核心功能是用自然语言搜索视频内容并自动剪出匹配片段。其技术原理是将视频直接嵌入向量空间(不经过文字中间层),然后通过语义匹配找到最相关的视频片段。

团队对该项目进行了调研,评估了本地部署的硬件要求和使用成本。结论是家用场景下使用 Gemini API 免费额度基本够用,本地部署推荐使用 Mac Mini M4 Pro (24GB) 或 NVIDIA RTX 4090 台式机。

关键点

  • 核心技术: 视频原生嵌入——直接把视频像素映射到向量空间,不经过 OCR 或语音转文字
  • 支持模型: Gemini Embedding 2(云端)或 Qwen3-VL(本地)
  • 处理流程: 视频切成 30 秒重叠片段 → 嵌入向量空间 → 语义匹配 → 自动裁剪
  • Cohere 不兼容: Cohere Embed 只支持文本和图片,不支持视频嵌入
  • 已有 OpenClaw Skill: ClawHub 上有现成的 SentrySearch 技能

两种运行模式

☁️ Gemini API 模式

  • 效果最好
  • 成本约 $2.84/小时视频
  • 免费额度:每分钟 1500 次 embedding 请求
  • 家用监控场景(每天几小时录像)免费额度基本够用
  • 静止画面自动跳过,节省消耗

🏠 本地 Qwen3-VL 模式

  • 完全免费离线
  • 8B 模型需要 24GB+ 显存/内存
  • 2B 模型需要 16GB,效果相对差一些

技术细节

硬件推荐

设备价格能力
🏆 Mac Mini M4 Pro (24GB)~1万跑满血 8B,安静省电
💪 NVIDIA RTX 4090 台式机2万+bf16 全精度 8B,速度最快
💰 NVIDIA RTX 4060 Ti 16GB~3000 卡4bit 量化跑 8B

MacBook M2 Pro 16GB 兼容性

  • ❌ 8B 模型需要 24GB+,16GB 不够
  • ✅ 2B 模型占 ~6GB 内存,可以跑
  • 推荐方案:直接用 Gemini API,Mac 只负责切视频和上传

特色功能

  • Tesla 行车记录仪 HUD 叠加(加速度/GPS/路名)
  • 自动跳过静止画面节省 API 费用
  • 自动裁剪最佳匹配片段

成本估算

  • 1 小时视频 ≈ 120 个 30 秒片段
  • Gemini 免费额度每天够索引几小时视频
  • 搜索几乎不花钱(纯文本 embedding)
  • 全天 24 小时录像场景需付费或本地部署

实用场景

  • 监控录像回看(如”红色卡车闯红灯”)
  • 行车记录仪视频搜索
  • 安防视频智能检索

时间线

  • 2026-03-30: 调研 SentrySearch 项目,分析技术原理和部署方案
  • 2026-03-30: 评估与 Cohere 的兼容性(不兼容)
  • 2026-03-30: 评估本地部署硬件要求和成本

相关页面