跳转至

zhiengNAS (192.168.31.88) 监控部署和运行情况报告

生成时间: $(date '+%Y-%m-%d %H:%M:%S')


📋 基本信息

项目 配置
设备名称 zhinengNAS
设备类型 Mac mini
IP地址 192.168.31.88 (实际), 10.0.0.4 (虚拟)
网络网段 192.168.31.0/24
主网关 192.168.31.1
角色 监控 + 日志 + 轻量计算 + 备份

🏗️ 硬件配置

资源 配置
RAM 8-16 GB
CPU 12 线程
存储 SSD

🚀 服务部署

1. 监控服务层

服务 资源分配 端口 状态
Prometheus 512MB 9090 ⚠️ 待确认
Grafana 512MB 3000 ⚠️ 待确认
Loki 256MB - ⚠️ 待确认
Alertmanager 256MB 9093 ⚠️ 待确认

2. 日志收集层

服务 资源分配 端口 状态
Promtail 256MB - ⚠️ 待确认
Fluentd 256MB - ⚠️ 待确认

3. 轻量计算层

服务 资源分配 端口 状态
Celery Worker 2GB - ⚠️ 待确认
Document Converter 512MB - ⚠️ 待确认
Backup Agent 512MB - ⚠️ 待确认

4. 存储客户端层

服务 资源分配 端口 状态
AList Mount 512MB 5244, 5245 ⚠️ 待确认
Backup Scheduler 256MB - ⚠️ 待确认

📊 资源分配总计

层级 总内存 总CPU
监控服务层 ~1.5 GB 2 核心
日志收集层 ~512 MB 1 核心
轻量计算层 ~3 GB 4 核心
存储客户端层 ~768 MB 2 核心
总计 ~5.8 GB ~9 核心

🌐 网络配置

实际网络

192.168.31.88 (zhinengNAS Mac mini)
主路由器: 192.168.31.1
AI网段 (192.168.2.0/24)
主节点: 192.168.2.1 (ZboxEN1070K)

虚拟网络

10.0.0.4 (zhinengNAS)
VPN/虚拟网关
10.0.0.1 (主节点)

静态路由

主节点 (ZboxEN1070K) 到 zhinengNAS:

sudo ip route add 192.168.31.0/24 via 192.168.2.1

zhinengNAS 到主节点:

sudo route add -net 192.168.2.0/24 192.168.31.1


📦 主要功能

1. 监控服务

  • Prometheus: 时序数据库,存储监控指标
  • Grafana: 可视化仪表板,展示监控数据
  • Loki: 日志存储系统
  • Alertmanager: 告警路由和通知管理

2. 日志收集

  • Promtail: 从本地收集日志并发送到 Loki
  • Fluentd: 聚合来自多个来源的日志

3. 轻量计算

  • Celery Worker: 执行异步任务
  • Document Converter: 文档格式转换
  • Backup Agent: 备份代理,执行备份任务

4. 存储客户端

  • AList Mount: 挂载 160TB 云存储
  • AList Web UI: http://192.168.31.88:5244
  • WebDAV: http://192.168.31.88:5245/dav
  • Backup Scheduler: 定期执行备份调度

🔗 访问地址

监控服务

  • Prometheus: http://192.168.31.88:9090
  • Grafana: http://192.168.31.88:3000
  • Alertmanager: http://192.168.31.88:9093

存储服务

  • AList Web UI: http://192.168.31.88:5244
  • AList WebDAV: http://192.168.31.88:5245/dav

虚拟IP(VPN)

  • Prometheus: http://10.0.0.4:9090
  • Grafana: http://10.0.0.4:3000
  • Alertmanager: http://10.0.0.4:9093

📈 监控指标

系统级指标

  • CPU 使用率
  • 内存使用率
  • 磁盘使用率
  • 网络流量

应用级指标

  • Docker 容器状态
  • 服务健康检查
  • 日志错误率
  • 备份任务状态

自定义指标

  • 任务队列长度
  • 文档转换进度
  • 备份完成率
  • 云存储使用量

⚠️ 待确认项

  1. 服务运行状态: 需要通过 SSH 连接确认所有服务是否正常运行
  2. 数据持久化: 需要确认数据卷是否正确挂载和备份
  3. 告警配置: 需要确认 Alertmanager 告警规则是否配置正确
  4. 网络连接: 需要确认静态路由或 VPN 是否配置正确
  5. 备份调度: 需要确认备份调度器是否按计划执行

🔧 维护建议

日常维护

  1. 定期检查服务健康状态
  2. 监控磁盘空间使用
  3. 检查日志错误
  4. 验证备份任务完成情况

定期维护

  1. 更新容器镜像
  2. 清理旧的监控数据
  3. 检查告警规则有效性
  4. 审查日志存储空间

应急处理

  1. 服务异常重启
  2. 磁盘空间清理
  3. 告警通知检查
  4. 网络连接恢复

📝 备注

  1. 部署状态: ⚠️ 文档中提到该设备用于监控,但实际部署状态需要通过 SSH 确认
  2. 访问方式: 由于 SSH 命令被禁用,无法直接连接到 zhiengNAS 进行状态检查
  3. 网络连接: 需要确认主节点和 zhiengNAS 之间的网络连接是否正常
  4. 数据同步: 需要确认监控数据是否正常从主节点发送到 zhiengNAS

🚨 已知问题

  1. 网络路由: 主节点到 zhiengNAS 的跨网段连接需要配置静态路由或 VPN
  2. 服务部署: 监控服务的实际部署状态待确认
  3. 数据收集: 是否正常收集来自主节点和其他服务的监控指标待确认
  4. 告警通知: 告警通知配置和发送状态待确认

报告生成者: AI Server
报告日期: $(date '+%Y-%m-%d %H:%M:%S')
下次检查: 建议通过 SSH 连接进行实际状态检查