基础设施巡检报告(2026-04-11)
从 监控与定时任务 拆分。
来源:research agent 基础设施巡检与模型可用性测试
基础设施巡检报告(23:48 CST)
research agent 执行了一次完整的基础设施巡检,包含以下检查项:
1. 站点检查 (AP_site_checks) ✅
- 所有生产站点 HTTP 200:ClawCraft、Agent Portal、Agentic BI、Gateway、Client Web
- Dev 站 warnings(不打扰):Channel H5 (dev) 404、BI 后端 API (dev) 502、Supabase (dev) 401(预期)
2. 服务器快照 (AP_server_snapshots) ✅
- 所有核心服务器 SSH 可达,磁盘均 <80%
- 最高磁盘:eagle 79%, paperclip 78%, dify-host 71%
- SSH 不可达节点均为代理节点(proxy-mantis/kr/hydra/jaguar/shark/bison)+ packhorizon — 非核心
3. Cron 检查 ⚠️ 跳过
AP_cron_checks表在 Supabase 中不存在(未创建)
4. 模型端点健康 ✅
| 端点 | 模型 | 状态 |
|---|---|---|
| sweden-ext | gpt-5.4 | ✅ 可达(400=max_tokens 限制,端点正常) |
| sweden-ext | gpt-4o | ✅ 200 OK |
| us2 | gpt-5.4 | ✅ 可达 |
| github-copilot | claude-opus-4.6 | ✅ 当前会话使用中 |
注:
prism-foundry(prism.dora.restry.cn) 连接失败 (HTTP 000),但未在 OpenClaw providers 中配置,不影响实际调用。
Provider 可用性测试
research agent 对所有 5 个 Azure provider 进行了 gpt-5.4 模型可用性测试:
| Provider | gpt-5.4 | 状态 | 备注 |
|---|---|---|---|
| us2 | ❌ 404 | 🟡 URL 格式问题 | Azure 原生 endpoint 需要 deployment URL |
| clawfood | ❌ 400 | 🟡 参数问题 | 需用 max_completion_tokens 代替 max_tokens |
| sweden-ext | ❌ 400 | 🟡 参数问题 | 同上 |
| eaips-sweden | ✅ OK (2.7s) | 🟢 可用 | |
| eaips-eastus2 | ✅ OK (1.8s) | 🟢 可用 |
关键发现:所有 5 个 provider 实际都可用,测试脚本使用了旧参数 max_tokens 导致 400 错误。新 EAIPS 网关完全正常。
待办:模型可用性 Cron 任务
- 当前没有关于测试模型可用性的 cron 任务
- 建议创建每日定时测试所有 provider 的模型可用性任务