vits-simple-api

Simply call the vits api

English|中文文档

Feature

VITS语音合成，语音转换
HuBert-soft VITS模型
W2V2 VITS / emotional-vits维度情感模型
vits_chinese
Bert-VITS2
GPT-SoVITS
加载多模型
自动识别语言并处理，根据模型的cleaner设置语言类型识别的范围，支持自定义语言类型范围
自定义默认参数
长文本批处理
GPU加速推理
SSML语音合成标记语言（完善中...）

在线demo

感谢hugging face喵

注意不同的id支持的语言可能有所不同。speakers

https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164
https://artrajz-vits-simple-api.hf.space/voice/vits?text=我觉得1%2B1≠3&id=164&lang=zh（get中一些字符需要转义不然会被过滤掉）
https://artrajz-vits-simple-api.hf.space/voice/vits?text=Difficult the first time, easy the second.&id=4
激动：https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=111
小声：https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=2077

https://user-images.githubusercontent.com/73542220/237995061-c1f25b4e-dd86-438a-9363-4bb1fe65b425.mov

部署

有两种部署方式可供选择。不论你选择哪一种，完成部署后都需要导入模型才能使用。

Docker部署（Linux推荐）

步骤1: 镜像拉取

运行以下命令以拉取 Docker 镜像，根据脚本中的提示选择需要下载的必要文件和拉取镜像：

bash -c "$(wget -O- https://raw.githubusercontent.com/Artrajz/vits-simple-api/main/vits-simple-api-installer-latest.sh)"

项目配置文件以及模型文件夹的默认路径为/usr/local/vits-simple-api/

步骤2: 启动

运行以下命令启动容器：

docker-compose up -d

镜像更新

运行以下命令更新镜像：

docker-compose pull

重新启动容器：

docker-compose up -d

虚拟环境部署

步骤1: 克隆项目

使用以下命令克隆项目仓库：

git clone https://github.com/Artrajz/vits-simple-api.git

步骤2: 下载 Python 依赖

推荐使用 Python 3.10版本的虚拟环境。运行以下命令安装项目所需的 Python 依赖：

如果遇到某些无法安装的依赖，请看下面的常见问题。

pip install -r requirements.txt

步骤3: 启动

运行以下命令启动程序：

python app.py

Windows快速部署包

步骤1：下载并解压部署包

进入releases页面下载并解压最新的部署包

步骤2：启动

运行start.bat启动程序

模型加载

步骤1: 下载 VITS 模型

将 VITS 模型文件下载并放入 data/models文件夹。

步骤2: 加载模型

自动加载模型

v0.6.6版本之后默认会自动加载data/models文件夹下的所有模型，方便新手使用。

手动加载模型

首次启动之后会生成一个config.yaml配置文件，需要将tts_config.auto_load改为false以启用手动加载模式。

可以修改配置文件中的tts_config.models或者在浏览器中进入管理员后台进行修改。

注意：v0.6.6版本之后已修改模型读取路径，请重新按照以下步骤配置模型路径！

路径可填绝对路径或相对路径，相对路径则是从项目根目录中的data/models文件夹开始。

比如data/models文件夹中有如下文件

├─model1
│  │─G_1000.pth
│  └─config.json
└─model2
   │─G_1000.pth
   └─config.json

填写

tts_config:
  auto_load: false
  models:
  - config_path: model1/config.json
    model_path: model1/G_1000.pth
  - config_path: model2/config.json
    model_path: model2/G_1000.pth
    # GPT-SoVITS则为
  - sovits_path: gpt_sovits1/model1_e8_s11536.pth
    gpt_path: gpt_sovits1/model1-e15.ckpt
  - sovits_path: gpt_sovits2/model2_e8_s11536.pth
    gpt_path: gpt_sovits2/model2-e15.ckpt

在管理员后台加载模型比较方便，但如果想加载data/models文件夹之外的模型，则只能通过修改config.yaml配置文件来加载，方法是直接填写绝对路径。

绝对路径填写：

tts_config:
  auto_load: false
  models:
  - config_path: D://model3/config.json
    model_path: D://model3/G_1000.pth

models_path:是相对于data目录下的模型文件夹，默认为models，auto_load为true时将会加载models_path目录下的所有模型。

其他模型

bert模型以及情感模型下载之后放在data/bert文件夹和data/emotional文件夹中，找到对应名字放入即可。

GPU 加速

windows

安装CUDA

查看显卡最高支持CUDA的版本

nvidia-smi

以CUDA11.7为例，官网

安装GPU版pytorch

CUDA11.7对应的pytorch是用这个命令安装，推荐使用1.13.1+cu117，其他版本可能存在内存不稳定的问题。

pip install torch==1.13.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117

Linux

安装过程类似，可以查阅网上的安装资料。也可以直接使用docker部署脚本中的gpu版本。

WebUI

推理前端

http://127.0.0.1:23456

*在默认端口为23456的情况下，端口可修改

管理员后台

默认为http://127.0.0.1:23456/admin

初始账号密码在初次启动后，在config.yaml中搜索admin可找到。

功能选项说明

关闭管理员后台

由于管理员后台可以对模型进行加载和卸载操作，虽然有登录验证的保障，为了绝对安全，当对公网开放时，可以在config.yaml中关闭管理员后台：

'IS_ADMIN_ENABLED': !!bool 'false'

Bert-VITS2配置使用语言/Bert模型

在Bert-VITS2 v2.0以后，一个模型需要加载三个不同语言的Bert模型。如果只需要使用其中一或两种语言，可以在模型的config.json的data中，添加lang参数，值为['zh']，表示该模型只使用中文，同时也只会加载中文的Bert模型。值为['zh','ja']表示只使用中日双语，同时也只会加载中文和日文的Bert模型。以此类推。

示例：

"data": {
  "lang": ["zh","ja"],
  "training_files": "filelists/train.list",
  "validation_files": "filelists/val.list",
  "max_wav_value": 32768.0,
  ...

自定义中文多音字词典

如果遇到多音字发音不正确，可以尝试用这种办法解决。

在data目录创建并打开phrases_dict.txt添加多音字词。

{
"一骑当千": [["yí"], ["jì"], ["dāng"], ["qiān"]],
}

GPT-SoVITS参考音频预设

在config.yaml中找到gpt_sovits的配置，在presets下添加预设，预设可添加多个，其中key作为预设名称，如下有两个默认的预设default和default2：

gpt_sovits_config:
  hz: 50
  is_half: false
  id: 0
  lang: auto
  format: wav
  segment_size: 50
  presets:
    default:
      refer_wav_path: null
      prompt_text: null
      prompt_lang: auto
    default2:
      refer_wav_path: null
      prompt_text: null
      prompt_lang: auto

阅读API

在开源阅读中测试

可使用多种模型朗读，包括VITS，Bert-VITS2，GPT-SoVITS，in开头的参数配置的是对话即引号中的文本的说话人，nr开头的参数配置的是旁白。

使用GPT-SoVITS需要提前在config.yaml配置好presets里的参考音频，并修改下方url中的preset

url中的IP可在API启动后找到，一般使用192.168开头的局域网IP。

修改好后，选择朗读引擎-添加朗读引擎-粘贴源，并启用该朗读引擎。

{
  "concurrentRate": "1",
  "contentType": "audio/wav",
  "enabledCookieJar": false,
  "header": "",
  "id": 1709643305070,
  "lastUpdateTime": 1709821070082,
  "loginCheckJs": "",
  "loginUi": "",
  "loginUrl": "",
  "name": "vits-simple-api",
  "url": "http://192.168.xxx.xxx:23456/voice/reading?text={{java.encodeURI(speakText)}}&in_model_type=GPT-SOVITS&in_id=0&in_preset=default&nr_model_type=BERT-VITS2&nr_id=0&nr_preset=default&format=wav&lang=zh"
}

常见问题

fasttext依赖安装问题

windows下可能安装不了fasttext,可以用以下命令安装，附wheels下载地址

# python3.10 win_amd64
pip install https://github.com/Artrajz/archived/raw/main/fasttext/fasttext-0.9.2-cp310-cp310-win_amd64.whl

或者

pip install fasttext -i https://pypi.artrajz.cn/simple

pyopenjtalk依赖安装问题

由于pypi.org没有pyopenjtalk的whl文件，通常需要从源代码来安装，这一过程对于一些人来说可能比较麻烦，所以你也可以使用我构建的whl来安装。

pip install pyopenjtalk -i https://pypi.artrajz.cn/simple

Bert-VITS2版本兼容

修改Bert-VITS2模型的config.json，加入版本号参数"version": "x.x.x"，比如模型版本为1.0.1时，配置文件应该写成：

{
  "version": "1.0.1",
  "train": {
    "log_interval": 10,
    "eval_interval": 100,
    "seed": 52,
    ...

需要注意的是，中文特化版的版本号应改为extra或zh-clap，特化修复版的版本号为2.4或extra-fix。

API

GET

speakers list

GET http://127.0.0.1:23456/voice/speakers

返回id对应角色的映射表

voice vits

GET http://127.0.0.1:23456/voice/vits?text=text

其他参数不指定时均为默认值
GET http://127.0.0.1:23456/voice/vits?text=[ZH]text[ZH][JA]text[JA]&lang=mix

lang=mix时文本要标注
GET http://127.0.0.1:23456/voice/vits?text=text&id=142&format=wav&lang=zh&length=1.4

文本为text，角色id为142，音频格式为wav，文本语言为zh，语音长度为1.4，其余参数默认

check

GET http://127.0.0.1:23456/voice/check?id=0&model=vits

POST

见api_test.py

API KEY

在config.yaml中设置api_key_enabled: true以启用，api key填写：api_key: api-key。

启用后，GET请求中使用需要增加参数api_key，POST请求中使用需要在header中添加参数X-API-KEY。

Parameter

VITS语音合成

Name	Parameter	Is must	Default	Type	Instruction
合成文本	text	true		str	需要合成语音的文本。
角色id	id	false	从`config.yaml`中获取	int	即说话人id。
音频格式	format	false	从`config.yaml`中获取	str	支持wav,ogg,silk,mp3,flac
文本语言	lang	false	从`config.yaml`中获取	str	auto为自动识别语言模式，也是默认模式。lang=mix时，文本应该用[ZH] 或 [JA] 包裹。方言无法自动识别。
语音长度/语速	length	false	从`config.yaml`中获取	float	调节语音长度，相当于调节语速，该数值越大语速越慢。
噪声	noise	false	从`config.yaml`中获取	float	样本噪声，控制合成的随机性。
sdp噪声	noisew	false	从`config.yaml`中获取	float	随机时长预测器噪声，控制音素发音长度。
分段阈值	segment_size	false	从`config.yaml`中获取	int	按标点符号分段，加起来大于segment_size时为一段文本。segment_size<=0表示不分段。
流式响应	streaming	false	false	bool	流式合成语音，更快的首包响应。

VITS 语音转换

Name	Parameter	Is must	Type	Instruction
上传音频	upload	true	file	wav or ogg
源角色id	original_id	true	int	上传文件所使用的角色id
目标角色id	target_id	true	int	要转换的目标角色id

HuBert-VITS 语音转换

Name	Parameter	Is must	Type	Instruction
上传音频	upload	true	file	需要转换说话人的音频文件。
目标角色id	id	true	int	目标说话人id。
音频格式	format	true	str	wav,ogg,silk
语音长度/语速	length	true	float	调节语音长度，相当于调节语速，该数值越大语速越慢
噪声	noise	true	float	样本噪声，控制合成的随机性。
sdp噪声	noisew	true	float	随机时长预测器噪声，控制音素发音长度。

W2V2-VITS

Name	Parameter	Is must	Default	Type	Instruction
合成文本	text	true		str	需要合成语音的文本。
角色id	id	false	从`config.yaml`中获取	int	即说话人id。
音频格式	format	false	从`config.yaml`中获取	str	支持wav,ogg,silk,mp3,flac
文本语言	lang	false	从`config.yaml`中获取	str	auto为自动识别语言模式，也是默认模式。lang=mix时，文本应该用[ZH] 或 [JA] 包裹。方言无法自动识别。
语音长度/语速	length	false	从`config.yaml`中获取	float	调节语音长度，相当于调节语速，该数值越大语速越慢
噪声	noise	false	从`config.yaml`中获取	float	样本噪声，控制合成的随机性。
sdp噪声	noisew	false	从`config.yaml`中获取	float	随机时长预测器噪声，控制音素发音长度。
分段阈值	segment_size	false	从`config.yaml`中获取	int	按标点符号分段，加起来大于segment_size时为一段文本。segment_size<=0表示不分段。
维度情感	emotion	false	0	int	范围取决于npy情感参考文件，如innnky的all_emotions.npy模型范围是0-5457

Dimensional emotion

Name	Parameter	Is must	Default	Type	Instruction
上传音频	upload	true		file	返回存储维度情感向量的npy文件

Bert-VITS2语音合成

Name	Parameter	Is must	Default	Type	Instruction
合成文本	text	true		str	需要合成语音的文本。
角色id	id	false	从`config.yaml`中获取	int	即说话人id。
音频格式	format	false	从`config.yaml`中获取	str	支持wav,ogg,silk,mp3,flac
文本语言	lang	false	从`config.yaml`中获取	str	auto为自动识别语言模式，也是默认模式，但目前只支持识别整段文本的语言，无法细分到每个句子。其余可选语言zh和ja。
语音长度/语速	length	false	从`config.yaml`中获取	float	调节语音长度，相当于调节语速，该数值越大语速越慢。
噪声	noise	false	从`config.yaml`中获取	float	样本噪声，控制合成的随机性。
sdp噪声	noisew	false	从`config.yaml`中获取	float	随机时长预测器噪声，控制音素发音长度。
分段阈值	segment_size	false	从`config.yaml`中获取	int	按标点符号分段，加起来大于segment_size时为一段文本。segment_size<=0表示不分段。
SDP/DP混合比	sdp_ratio	false	从`config.yaml`中获取	int	SDP在合成时的占比，理论上此比率越高，合成的语音语调方差越大。
情感控制	emotion	false	从`config.yaml`中获取	int	Bert-VITS2 v2.1可用，范围为0-9
情感参考音频	reference_audio	false	None		Bert-VITS2 v2.1 使用参考音频来控制合成音频的情感
文本提示词	text_prompt	false	从`config.yaml`中获取	str	Bert-VITS2 v2.2 文本提示词，用于控制情感
文本提示词	style_text	false	从`config.yaml`中获取	str	Bert-VITS2 v2.3 文本提示词，用于控制情感
文本提示词权重	style_weight	false	从`config.yaml`中获取	float	Bert-VITS2 v2.3 文本提示词，用于提示词权重
流式响应	streaming	false	false	bool	流式合成语音，更快的首包响应。

GPT-SoVITS语音合成

Name	Parameter	Is must	Default	Type	Instruction
合成文本	text	true		str	需要合成语音的文本。
角色id	id	false	从`config.yaml`中获取	int	即说话人id。在GPT-SoVITS中，每一个模型作为一个角色id，音色通过参考音频预设来切换。
音频格式	format	false	从`config.yaml`中获取	str	支持wav,ogg,silk,mp3,flac
文本语言	lang	false	从`config.yaml`中获取	str	auto为自动识别语言模式，也是默认模式，但目前只支持识别整段文本的语言，无法细分到每个句子。
参考音频	reference_audio	false	None		参考音频是必须的，但是可以被预设代替
参考音频文本	prompt_text	false	从`config.yaml`中获取	float	需要和参考音频实际文本保持一致。
参考音频语言	prompt_lang	false	从`config.yaml`中获取	str	默认为auto，自动识别文本语言。如果识别失败则手动填写，中文就是zh，日文是ja，英文是en。
参考音频预设	preset	false	default	str	通过提前设置好的预设代替参考音频，可设置多个预设。

SSML语音合成标记语言

目前支持的元素与属性

speak元素

Attribute	Description	Is must
id	默认值从`config.yaml`中读取	false
lang	默认值从`config.yaml`中读取	false
length	默认值从`config.yaml`中读取	false
noise	默认值从`config.yaml`中读取	false
noisew	默认值从`config.yaml`中读取	false
segment_size	按标点符号分段，加起来大于segment_size时为一段文本。segment_size<=0表示不分段，这里默认为0。	false
model_type	默认为VITS，可选W2V2-VITS，BERT-VITS2	false
emotion	只有用W2V2-VITS时`emotion`才会生效，范围取决于npy情感参考文件	false
sdp_ratio	只有用BERT-VITS2时`sdp_ratio`才会生效	false

voice元素

优先级大于speak

Attribute	Description	Is must
id	默认值从`config.yaml`中读取	false
lang	默认值从`config.yaml`中读取	false
length	默认值从`config.yaml`中读取	false
noise	默认值从`config.yaml`中读取	false
noisew	默认值从`config.yaml`中读取	false
segment_size	按标点符号分段，加起来大于segment_size时为一段文本。segment_size<=0表示不分段，这里默认为0。	false
model_type	默认为VITS，可选W2V2-VITS，BERT-VITS2	false
emotion	只有用W2V2-VITS时`emotion`才会生效，范围取决于npy情感参考文件	false
sdp_ratio	只有用BERT-VITS2时`sdp_ratio`才会生效	false

break元素

Attribute	Description	Is must
strength	x-weak,weak,medium（默认值）,strong,x-strong	false
time	暂停的绝对持续时间，以秒为单位（例如 `2s`）或以毫秒为单位（例如 `500ms`）。有效值的范围为 0 到 5000 毫秒。如果设置的值大于支持的最大值，则服务将使用 `5000ms`。如果设置了 `time` 属性，则会忽略 `strength` 属性。	false

Strength	Relative Duration
x-weak	250 毫秒
weak	500 毫秒
Medium	750 毫秒
Strong	1000 毫秒
x-strong	1250 毫秒

阅读

Name	Parameter	Is must	Default	Type	Instruction
合成文本	text	true		str	需要合成语音的文本。
对话角色模型类型	in_model_type	false	从`config.yaml`中获取	str
对话角色id	in_id	false	从`config.yaml`中获取	int
对话角色参考音频预设	in_preset	false	default	str	通过提前设置好的预设代替参考音频，可设置多个预设。
旁白角色模型类型	nr_model_type	false	从`config.yaml`中获取	str
旁白角色id	nr_id	false	从`config.yaml`中获取	int
旁白角色参考音频预设	nr_preset	false	default	str	通过提前设置好的预设代替参考音频，可设置多个预设。
音频格式	format	false	从`config.yaml`中获取	str	支持wav,ogg,silk,mp3,flac
文本语言	lang	false	从`config.yaml`中获取	str	auto为自动识别语言模式，也是默认模式，但目前只支持识别整段文本的语言，无法细分到每个句子。

模型的其他参数将使用config.yaml文件中对应模型的默认参数。

示例

见api_test.py

交流平台

现在只有 Q群

鸣谢

vits:https://github.com/jaywalnut310/vits
MoeGoe:https://github.com/CjangCjengh/MoeGoe
emotional-vits:https://github.com/innnky/emotional-vits
vits-uma-genshin-honkai:https://huggingface.co/spaces/zomehwh/vits-uma-genshin-honkai
vits_chinese:https://github.com/PlayVoice/vits_chinese
Bert_VITS2:https://github.com/fishaudio/Bert-VITS2
GPT-SoVITS:https://github.com/RVC-Boss/GPT-SoVITS