SentrySearch视频搜索分析

开源项目 SentrySearch 实现自然语言搜索视频内容，通过视频原生嵌入直接将像素映射到向量空间。

概述

SentrySearch 是一个爆火的开源项目（⭐ 2454），核心功能是用自然语言搜索视频内容并自动剪出匹配片段。其技术原理是将视频直接嵌入向量空间（不经过文字中间层），然后通过语义匹配找到最相关的视频片段。

团队对该项目进行了调研，评估了本地部署的硬件要求和使用成本。结论是家用场景下使用 Gemini API 免费额度基本够用，本地部署推荐使用 Mac Mini M4 Pro (24GB) 或 NVIDIA RTX 4090 台式机。

关键点

核心技术: 视频原生嵌入——直接把视频像素映射到向量空间，不经过 OCR 或语音转文字
支持模型: Gemini Embedding 2（云端）或 Qwen3-VL（本地）
处理流程: 视频切成 30 秒重叠片段 → 嵌入向量空间 → 语义匹配 → 自动裁剪
Cohere 不兼容: Cohere Embed 只支持文本和图片，不支持视频嵌入
已有 OpenClaw Skill: ClawHub 上有现成的 SentrySearch 技能

两种运行模式

☁️ Gemini API 模式

效果最好
成本约 $2.84/小时视频
免费额度：每分钟 1500 次 embedding 请求
家用监控场景（每天几小时录像）免费额度基本够用
静止画面自动跳过，节省消耗

🏠 本地 Qwen3-VL 模式

完全免费离线
8B 模型需要 24GB+ 显存/内存
2B 模型需要 16GB，效果相对差一些

技术细节

硬件推荐

设备	价格	能力
🏆 Mac Mini M4 Pro (24GB)	~1万	跑满血 8B，安静省电
💪 NVIDIA RTX 4090 台式机	2万+	bf16 全精度 8B，速度最快
💰 NVIDIA RTX 4060 Ti 16GB	~3000 卡	4bit 量化跑 8B

MacBook M2 Pro 16GB 兼容性

❌ 8B 模型需要 24GB+，16GB 不够
✅ 2B 模型占 ~6GB 内存，可以跑
推荐方案：直接用 Gemini API，Mac 只负责切视频和上传

特色功能

Tesla 行车记录仪 HUD 叠加（加速度/GPS/路名）
自动跳过静止画面节省 API 费用
自动裁剪最佳匹配片段

成本估算

1 小时视频 ≈ 120 个 30 秒片段
Gemini 免费额度每天够索引几小时视频
搜索几乎不花钱（纯文本 embedding）
全天 24 小时录像场景需付费或本地部署

实用场景

监控录像回看（如”红色卡车闯红灯”）
行车记录仪视频搜索
安防视频智能检索

时间线

2026-03-30: 调研 SentrySearch 项目，分析技术原理和部署方案
2026-03-30: 评估与 Cohere 的兼容性（不兼容）
2026-03-30: 评估本地部署硬件要求和成本

相关页面