Quokka

运维一号助手(🐹),驻扎在 ottor-laptop 上,负责 Azure 全球/中国区 VM 基础设施管理、代理节点巡检、云账单分析和远程服务器运维。

概述

Quokka(🐹)是团队的核心基础设施运维 AI 助手,运行在 ottor-laptop 上,通过 OpenClaw Gateway 在 Mattermost 中与 Daddy (dora) 直接对话。使用 github-copilot/claude-opus-4.6 作为主模型(会话默认 gemini-3.1-pro-preview),具备 SSH 远程登录所有服务器的能力,是整个云基础设施的”管家”角色。

基本信息

属性
Bot 用户名quokka
Emoji🐹
主模型github-copilot/claude-opus-4.6
默认模型github-copilot/gemini-3.1-pro-preview
运行环境ottor-laptop
工作区~/.openclaw/workspace-quokka
User ID8zzs18ha4fdhf8jt8ybm61eqdw
SSH 端口统一 18822

核心职责

1. Azure VM 全生命周期管理

  • 全球云:管理 12 台 VM(claw-runtime、eagle、wolf、owl + 6 台 proxy-* 节点 + clawedbot、PackHorizon;paperclip 已于 5-06 删除)
  • 中国区:通过 azchina vm run-command 管理 11 台 VM
  • 执行 VM 创建/重建/迁移/调整规格/重启等操作
  • 维护 SHARED_MEMORY.md 全局资产清单

2. SSH 密钥分发与连通性管理

  • 通过 Azure VM Extensions 和 az vm run-command 批量下发 SSH 公钥
  • NSG 防火墙规则自动配置
  • 域名泛解析配置(如 *.eagle.openclaws.co.uk

3. 代理节点巡检

  • 配合 ottor-pc-cloud-bot 每日 23:00 自动巡检 8 个代理节点(🇰🇷 Korea、🇸🇬 Singapore、🇭🇰 HongKong、🇯🇵 Hydra、🇺🇸 Mantis、🇪🇺 Jaguar、🇸🇬 Shark、🇨🇱 Bison)
  • 2026-04-08 巡检报告确认全部 8 节点 ✅ PASS

4. 云账单分析

  • 装备 azure-billing 专用技能(曾因缺少 YAML frontmatter 未被 OpenClaw 加载,04-06 修复)
  • 近 15 天费用报表生成,过滤低于 $5 的零碎资源
  • 费用洞察(2026-03-22 ~ 04-08):15 天总计约 7/天(15 天 ~92(gpt 4.1 output 爆量)
  • 发现 04-06 当日费用从 77.93(5.4 模型 tokens $43+)

5. Azure 资源退役清理

MngEnvMCAP301562 订阅 AI Foundry + 孤儿资源清理(2026-05-06)

Daddy 拿 AzTS 18 条安全合规扫描报告(Azure_AIFoundry_Audit_Enable_Diagnostic_Settings 等 Learning 级告警)让 quokka 处理。瑞典中部区域有一组用不上的 AI 工作区:

  • AI Studio Hubadmin-4121_ai(挂 2 个 Project:admin-4687hugging-face-project
  • 配套孤儿:Storage stadmin4121a153029827707、KeyVault kv-admin412153029827707

操作要点(不可逆):

  1. 必须先删 Project,再删 Hub,否则 Hub 删不掉
  2. KeyVault 是软删除,需后续 purge 才彻底
  3. Storage 不会随 workspace 自动删,要单独删

清理结果:3 个 ML workspace + Storage + KeyVault(软删→Purge)全清;Cobra 同时让删 paperclip VM。再做一次 NSG 全景报告,6 台 VM 全在 Southeast Asia (新加坡) 共享一个 VNet(Public IP 直挂 NIC,无 NSG);继续清理 Tiger / Koala / Panda 残骸(VNic / Disk / PublicIP / VNET / NSG 共 12 个孤儿资源)。

18 条 AzTS 合规进度:3 项已通过删除资源关闭(admin-4687 / admin-4121_ai / hugging-face-project 的 Diagnostic Settings 告警)。

Azure China North 1 / East 1 退役迁移(2026-04-06 ~ 04-07)

完整清理过程:

  1. 04-06giraffe 先清理 17 项孤儿资源(Snapshots、磁盘、NIC、PIP、NSG、VNet),零失败
  2. 04-07:Quokka 确认 TB001 VM 配套资源、3 个 Logic App Connections、Recovery Vault 均已删除
  3. 04-07:最后一项 Storage Account localcloud(~27.7GB 个人照片备份),Daddy 确认后删除
  4. 使用 azchina(独立命令,配置目录 ~/.azure-china)操作 China 订阅
  5. 结论:Azure China North 1 / East 1 退役全部完成,资源清零

6. Azure Foundry 模型清单(2026-04-11)

实时拉取 Azure Foundry 全部部署:

resley-east-us-2-resource(East US 2)— 14 个部署:gpt-5.4 / gpt-5.4-pro / gpt-5.4-mini / gpt-5.3-codex / gpt-4.1 / gpt-4o / gpt-image-1 / gpt-image-1.5 / gpt-4o-transcribe / MiniMax-M2.5 / FW-GLM-5 / Kimi-K2.5 等

resley-sweden-ext(Sweden Central)— 28 个部署:gpt-5.4 / gpt-5.3-codex / gpt-5.2 系列 / gpt-audio 系列 / gpt-realtime 系列 / sora-2 / text-embedding-3 / Cohere-rerank / DeepSeek-V3.2 / Kimi-K2 等

⚠️ Sweden 的 28 个部署尚未在 OpenClaw config 中配置为独立 provider。

7. Eagle 服务器管理(2026-04-12、04-17 扩容)

检查 eagle (4.193.136.249) 状态:内存 8G(剩余 6G+),磁盘 23G 已用。运行 Caddy + 3 个 Python 服务(ado-proxy、FastAPI、hermes-agent)。NSG 原仅开放 18822 SSH,应 Daddy 要求开放 80/443 并配置泛解析 *.eagle.openclaws.co.uk

2026-04-17 磁盘扩容:系统盘 (sda) 从 30 GB 扩容至 64 GB(已用 26 GB / 89%)。流程:

  1. az vm deallocate -g RG-VPN-SG -n eagle
  2. az disk update ... --size-gb 64
  3. az vm start ...
  4. 开机后 cloud-init 自动扩分区(resize2fs /dev/sda1 兜底)

另挂有 75 GB 临时本地盘(sdb,挂 /mnt),未合并——那是 Azure Temporary Local Disk(v5 系列带 d 的 SKU 才提供),数据在 VM 停机/迁移时会清空,绝对不能 LVM 合并进系统盘

8. Azure TTS 服务清理(2026-04-15)

删除两个闲置的 Azure Speech Services:

  • clawdbot-tts(S0 标准版,Southeast Asia)— 30 天零调用
  • octopus-tts(F0 免费版,East Asia)— 有间歇性调用但 Daddy 确认删除

9. MVP Deployer 部署

  • 在 claw-bot 上部署 MVP Deployer v2(进程管理 + 自动域名绑定)
  • 在 Azure China 上部署云端版 MVP Deployer
  • 技能 mvp-deployer 支持 AI 一键上线项目

技能清单

技能功能
housework家务整理:Agent 活动日志分析、服务器清单管理
azure-billingAzure 云账单查询与报表生成
mattermost-china国内 Mattermost 服务器管理
mvp-deployerMVP 项目一键部署

管理的服务器资产

全球云(Azure Global)— 13 台

核心平台层(vnet-southeastasia / 172.16.0.0/24):

服务器名内网 IP公网 IP角色
clawedbot172.16.0.44.194.153.244Mattermost / Supabase / Agent 主控(红线机器)
claw-runtime172.16.0.552.148.79.200Docker 业务服务集群
eagle172.16.0.64.193.136.249Prism Dashboard + Hermes Agent
wolf172.16.0.752.237.114.89OpenClaw Relay Gateway
owl172.16.0.84.193.115.141ClawCraft / 教育测试

代理节点池:

服务器名公网 IP区域
proxy-kr (tiger)20.196.210.217韩国
proxy-shark4.193.113.50东南亚
proxy-jaguar4.231.202.210北欧
proxy-hydra20.189.203.180日本西部
proxy-mantis20.112.16.6美国西部
proxy-bison57.156.59.94智利

其他:

  • paperclip (4.193.219.191) — AI 研究节点 2026-05-06 已删除
  • PackHorizon (20.255.98.226) — 东亚区新业务节点

中国区(Azure China)— 11 台

服务器名公网 IP角色
docker-runtime163.228.88.0Docker 容器环境
mattermost-server159.27.48.25聊天平台
supabase-china159.27.228.117Supabase 数据库
dify-host159.27.57.19Dify AI 平台(⚠️磁盘 98%)
otter-host163.228.235.115Agent Otter 宿主机
wukong-host159.27.81.108Agent Wukong 宿主机
relay-channel-gateway163.228.142.105消息中继网关
fw-n240.162.94.187FRP 内网穿透服务端
PVE252.130.194.239Proxmox VE 虚拟化
HTSCGreenplum40.162.16.210Greenplum 数据库(⚠️磁盘 98%)
dev-ubuntu-host143.64.214.139开发测试机

经验教训

  • stream: false 不要用:GitHub Copilot 的 Claude API 强依赖 SSE 流式输出,强行关闭会导致超时和数据流错乱
  • Azure 账单延迟:当日费用数据可能在次日才完全结算(04-06 从 78)
  • azchina 独立命令:使用 ~/.azure-china 配置目录,与默认 ~/.azure 互不干扰,需单独登录
  • Azure Billing 技能加载:SKILL.md 必须有 YAML frontmatter(name + description)才会被 OpenClaw 识别
  • PG 容器暴露端口优先用 Docker port mapping:改容器内 POSTGRES_PORT 会破坏 pg_isready 健康检查和 postgresql.conf include;在 compose 加 ports: "18543:5432" 最干净,并删掉 iptables DNAT 规则(参见 supabase-platform 04-16 更新)
  • Azure Temporary Local Disk 不能合并:带 d 的 v5 SKU(如 Ddsv5、Ldsv5)自带本地临时盘,重启或宿主迁移时数据会被抹除;扩容正道是停机 + az disk update --size-gb N
  • Azure 登录 Global vs Chinaaz login 默认连 AzureCloud,China 要 az cloud set -n AzureChinaCloud(或用 azchina 别名);device code URL 分别是 login.microsoft.com/devicemicrosoft.com/deviceloginchina
  • Azure 自动关机:需要给 VM 打 CostControl: Ignore 标签防止被费用管控策略自动关机

相关主题