zhiengNAS (192.168.31.88) 监控部署和运行情况报告
生成时间: $(date '+%Y-%m-%d %H:%M:%S')
📋 基本信息
| 项目 |
配置 |
| 设备名称 |
zhinengNAS |
| 设备类型 |
Mac mini |
| IP地址 |
192.168.31.88 (实际), 10.0.0.4 (虚拟) |
| 网络网段 |
192.168.31.0/24 |
| 主网关 |
192.168.31.1 |
| 角色 |
监控 + 日志 + 轻量计算 + 备份 |
🏗️ 硬件配置
| 资源 |
配置 |
| RAM |
8-16 GB |
| CPU |
12 线程 |
| 存储 |
SSD |
🚀 服务部署
1. 监控服务层
| 服务 |
资源分配 |
端口 |
状态 |
| Prometheus |
512MB |
9090 |
⚠️ 待确认 |
| Grafana |
512MB |
3000 |
⚠️ 待确认 |
| Loki |
256MB |
- |
⚠️ 待确认 |
| Alertmanager |
256MB |
9093 |
⚠️ 待确认 |
2. 日志收集层
| 服务 |
资源分配 |
端口 |
状态 |
| Promtail |
256MB |
- |
⚠️ 待确认 |
| Fluentd |
256MB |
- |
⚠️ 待确认 |
3. 轻量计算层
| 服务 |
资源分配 |
端口 |
状态 |
| Celery Worker |
2GB |
- |
⚠️ 待确认 |
| Document Converter |
512MB |
- |
⚠️ 待确认 |
| Backup Agent |
512MB |
- |
⚠️ 待确认 |
4. 存储客户端层
| 服务 |
资源分配 |
端口 |
状态 |
| AList Mount |
512MB |
5244, 5245 |
⚠️ 待确认 |
| Backup Scheduler |
256MB |
- |
⚠️ 待确认 |
📊 资源分配总计
| 层级 |
总内存 |
总CPU |
| 监控服务层 |
~1.5 GB |
2 核心 |
| 日志收集层 |
~512 MB |
1 核心 |
| 轻量计算层 |
~3 GB |
4 核心 |
| 存储客户端层 |
~768 MB |
2 核心 |
| 总计 |
~5.8 GB |
~9 核心 |
🌐 网络配置
实际网络
192.168.31.88 (zhinengNAS Mac mini)
↓
主路由器: 192.168.31.1
↓
AI网段 (192.168.2.0/24)
↓
主节点: 192.168.2.1 (ZboxEN1070K)
虚拟网络
10.0.0.4 (zhinengNAS)
↓
VPN/虚拟网关
↓
10.0.0.1 (主节点)
静态路由
主节点 (ZboxEN1070K) 到 zhinengNAS:
sudo ip route add 192.168.31.0/24 via 192.168.2.1
zhinengNAS 到主节点:
sudo route add -net 192.168.2.0/24 192.168.31.1
📦 主要功能
1. 监控服务
- Prometheus: 时序数据库,存储监控指标
- Grafana: 可视化仪表板,展示监控数据
- Loki: 日志存储系统
- Alertmanager: 告警路由和通知管理
2. 日志收集
- Promtail: 从本地收集日志并发送到 Loki
- Fluentd: 聚合来自多个来源的日志
3. 轻量计算
- Celery Worker: 执行异步任务
- Document Converter: 文档格式转换
- Backup Agent: 备份代理,执行备份任务
4. 存储客户端
- AList Mount: 挂载 160TB 云存储
- AList Web UI: http://192.168.31.88:5244
- WebDAV: http://192.168.31.88:5245/dav
- Backup Scheduler: 定期执行备份调度
🔗 访问地址
监控服务
- Prometheus: http://192.168.31.88:9090
- Grafana: http://192.168.31.88:3000
- Alertmanager: http://192.168.31.88:9093
存储服务
- AList Web UI: http://192.168.31.88:5244
- AList WebDAV: http://192.168.31.88:5245/dav
虚拟IP(VPN)
- Prometheus: http://10.0.0.4:9090
- Grafana: http://10.0.0.4:3000
- Alertmanager: http://10.0.0.4:9093
📈 监控指标
系统级指标
应用级指标
- Docker 容器状态
- 服务健康检查
- 日志错误率
- 备份任务状态
自定义指标
- 任务队列长度
- 文档转换进度
- 备份完成率
- 云存储使用量
⚠️ 待确认项
- 服务运行状态: 需要通过 SSH 连接确认所有服务是否正常运行
- 数据持久化: 需要确认数据卷是否正确挂载和备份
- 告警配置: 需要确认 Alertmanager 告警规则是否配置正确
- 网络连接: 需要确认静态路由或 VPN 是否配置正确
- 备份调度: 需要确认备份调度器是否按计划执行
🔧 维护建议
日常维护
- 定期检查服务健康状态
- 监控磁盘空间使用
- 检查日志错误
- 验证备份任务完成情况
定期维护
- 更新容器镜像
- 清理旧的监控数据
- 检查告警规则有效性
- 审查日志存储空间
应急处理
- 服务异常重启
- 磁盘空间清理
- 告警通知检查
- 网络连接恢复
📝 备注
- 部署状态: ⚠️ 文档中提到该设备用于监控,但实际部署状态需要通过 SSH 确认
- 访问方式: 由于 SSH 命令被禁用,无法直接连接到 zhiengNAS 进行状态检查
- 网络连接: 需要确认主节点和 zhiengNAS 之间的网络连接是否正常
- 数据同步: 需要确认监控数据是否正常从主节点发送到 zhiengNAS
🚨 已知问题
- 网络路由: 主节点到 zhiengNAS 的跨网段连接需要配置静态路由或 VPN
- 服务部署: 监控服务的实际部署状态待确认
- 数据收集: 是否正常收集来自主节点和其他服务的监控指标待确认
- 告警通知: 告警通知配置和发送状态待确认
报告生成者: AI Server
报告日期: $(date '+%Y-%m-%d %H:%M:%S')
下次检查: 建议通过 SSH 连接进行实际状态检查