PluginsKers
/

Convbased-Studio

speech-synthesis

speech-to-speech

voice-conversion

encoder-decoder

Model card Files Files and versions

Convbased-Studio / README.md

PluginsKers's picture

Upload folder using huggingface_hub

ec92367 verified 5 months ago

|

2.59 kB

	---
	language:
	- zh
	- en
	tags:
	- speech-synthesis
	- speech-to-speech
	- voice-conversion
	- pytorch
	- audio
	- chinese-tts
	- multi-speaker
	- convolution
	- encoder-decoder
	- aishell
	- vctk
	license: apache-2.0
	datasets:
	- aishell
	- thchs30
	- primewords
	- vctk
	library_name: pytorch
	---

	# Convbased

	Convbased是一个高性能的中文语音合成模型，基于卷积神经网络和编码器-解码器架构设计。该模型在多个中文数据集上进行训练，支持多说话人和多方言的语音合成。


	- 更快的训练收敛速度
	- 更稳定的训练过程
	- 更好的语音质量输出
	- 支持多种中文方言（普通话、粤语、闽南语、四川话、温州话等）
	- 多说话人语音合成能力

	## 模型信息

	### 训练规模
	- 说话人数量: 476个不同说话人
	- 训练时长: 35天连续训练
	- 模型类型: 编码器 + 解码器架构
	- 总训练数据: 约467小时高质量语音数据

	### 模型架构
	- 编码器: 基于卷积的文本编码器
	- 解码器: 声学特征解码器
	- 判别器: 对抗训练判别器
	- 损失函数: 组合损失（Mel频谱损失 + KL散度损失 + 特征匹配损失）

	## 训练曲线

	模型训练过程中的各项损失函数变化：

	![loss_d_total](assets/loss_d_total.png)
	判别器总损失

	![loss_g_fm](assets/loss_g_fm.png)
	生成器特征匹配损失

	![loss_g_kl](assets/loss_g_kl.png)
	KL散度损失

	![loss_g_mel](assets/loss_g_mel.png)
	Mel频谱损失

	![loss_g_total](assets/loss_g_total.png)
	生成器总损失

	## 训练数据集

	本模型使用以下高质量中文语音数据集进行训练：

	\| 数据集名称 \| 时长（小时） \| 描述 \|
	\|-------------------\|-------------\|------\|
	\| data_aishell \| 178 \| 中文普通话语音识别数据集 \|
	\| data_thchs30 \| 30 \| 清华大学中文语音数据集 \|
	\| primewords_md_2018\| 178 \| 中文语音合成数据集 \|
	\| VCTK \| 44 \| 英文多说话人数据集 \|
	\| 四川方言 \| 4 \| 四川话方言数据 \|
	\| 闽南语 \| 3 \| 闽南话方言数据 \|
	\| 粤语 \| 3 \| 粤语方言数据 \|
	\| 温州方言 \| 7 \| 温州话方言数据 \|
	\| 噪声 \| 20 \| 噪声环境语音数据 \|


	本模型致力于推进中文语音合成技术的发展，该底模已用于微调大部分模型于 [Convbased](https://weights.chat/)