Fish Audio S2 云 GPU 部署方案

硬件需求

配置	显存	说明
官方推荐	24GB+	FP16/BF16 全精度推理
量化 GGUF Q4	4-8GB	mach9243/s2-pro-gguf，质量损失小
BNB NF4 4bit	16GB+	ComfyUI 社区验证可行

模型参数

S2-Pro: 4B 参数
双AR架构: Slow AR (4B) + Fast AR (400M)
约 8-10GB FP16 权重

推荐云 GPU 选型（2026年4月行情）

平台	GPU	显存	价格	评价
恒源云	RTX 4090	24GB	¥1.32/h	最便宜，S2 完美运行
智星云	RTX 4090	24GB	¥1.50/h	稳定，不超售
AutoDL	RTX 4090	24GB	~¥1.6/h	社区成熟，开箱即用
恒源云	A100	40GB	~¥3-4/h	富余显存，可同时跑多任务
AutoDL	RTX 3090	24GB	~¥1.0/h	性价比之选

推荐方案: 恒源云/AutoDL RTX 4090 24GB，¥1.3-1.6/h - S2 FP16 推理占 ~10GB，还有 14GB 余量 - 支持语音克隆、多轮对话 - 首次部署约需 30 分钟

部署步骤

1. 创建实例

镜像: PyTorch 2.5 + Python 3.12
GPU: RTX 4090 (24GB)
系统盘: 50GB+（模型 ~10GB）
需要开放端口: 7860 (WebUI) 或 8080 (API)

2. 一键部署脚本

见 deploy_fish_s2.sh（本目录下）

3. Docker 部署（备选）

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech
docker compose --profile server up

低显存替代方案（8GB 以下）

如果预算有限，可用 GGUF Q4 量化版（4GB VRAM）： - 模型: mach9243/s2-pro-gguf（q4_k_m） - 显存: 4-8GB - 速度: ~10-11 it/s (16GB+ VRAM), 更慢在 8GB - 质量: 轻微损失，仍然很好

与现有架构集成

用户查询 → Phase A (意图分类) → 知识检索 → Phase B (Qwen2-7B 生成回答)
                                                    ↓
                                              Fish S2 (TTS 朗读回答)

集成方式: 1. 部署在云 GPU 上，暴露 API 端口 2. 本地通过 HTTP 调用 TTS 服务 3. 也可直接用 Fish Audio 官方 API（按量付费，跳过自部署）