跳转至

Fish Audio S2 云 GPU 部署方案

硬件需求

配置 显存 说明
官方推荐 24GB+ FP16/BF16 全精度推理
量化 GGUF Q4 4-8GB mach9243/s2-pro-gguf,质量损失小
BNB NF4 4bit 16GB+ ComfyUI 社区验证可行

模型参数

  • S2-Pro: 4B 参数
  • 双AR架构: Slow AR (4B) + Fast AR (400M)
  • 约 8-10GB FP16 权重

推荐云 GPU 选型(2026年4月行情)

平台 GPU 显存 价格 评价
恒源云 RTX 4090 24GB ¥1.32/h 最便宜,S2 完美运行
智星云 RTX 4090 24GB ¥1.50/h 稳定,不超售
AutoDL RTX 4090 24GB ~¥1.6/h 社区成熟,开箱即用
恒源云 A100 40GB ~¥3-4/h 富余显存,可同时跑多任务
AutoDL RTX 3090 24GB ~¥1.0/h 性价比之选

推荐方案: 恒源云/AutoDL RTX 4090 24GB,¥1.3-1.6/h - S2 FP16 推理占 ~10GB,还有 14GB 余量 - 支持语音克隆、多轮对话 - 首次部署约需 30 分钟

部署步骤

1. 创建实例

  • 镜像: PyTorch 2.5 + Python 3.12
  • GPU: RTX 4090 (24GB)
  • 系统盘: 50GB+(模型 ~10GB)
  • 需要开放端口: 7860 (WebUI) 或 8080 (API)

2. 一键部署脚本

deploy_fish_s2.sh(本目录下)

3. Docker 部署(备选)

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech
docker compose --profile server up

低显存替代方案(8GB 以下)

如果预算有限,可用 GGUF Q4 量化版(4GB VRAM): - 模型: mach9243/s2-pro-gguf(q4_k_m) - 显存: 4-8GB - 速度: ~10-11 it/s (16GB+ VRAM), 更慢在 8GB - 质量: 轻微损失,仍然很好

与现有架构集成

用户查询 → Phase A (意图分类) → 知识检索 → Phase B (Qwen2-7B 生成回答)
                                              Fish S2 (TTS 朗读回答)

集成方式: 1. 部署在云 GPU 上,暴露 API 端口 2. 本地通过 HTTP 调用 TTS 服务 3. 也可直接用 Fish Audio 官方 API(按量付费,跳过自部署)