AI语音模型 (TTS/ASR/声音克隆) | AIGC软件库

语音模型

探索AI语音技术的奥秘，包括文本转语音(TTS)、语音识别(ASR)和声音克隆等核心技术。了解这些模型如何为智能设备和应用赋能。

KittenTTS

KittenTTS

一个小于25MB的文本转语音模型

SongGeneration

SongGeneration

生成人声和伴奏的高质量歌曲

OpusLM_7B_Anneal

OpusLM_7B_Anneal

处理语音和文本的统一语言模型

Magenta Realtime

Magenta Realtime

用于实时交互式音乐生成的Python库

MOSS-TTSD

MOSS-TTSD

可生成中英双语对话的语音模型

Muyan-TTS

Muyan-TTS

一个可训练的播客专用语音合成模型

Kimi-Audio

Kimi-Audio

处理语音对话和生成任务的开源模型

Dia

Dia

一个生成超写实风格对话的文本转语音模型

Orpheus-TTS

Orpheus-TTS

一个基于Llama-3构建的开源语音生成模型

MegaTTS3

MegaTTS3

一个支持中英文的语音克隆工具

Higgs Audio

Higgs Audio

生成高质量语音和多角色对话的开源工具

Voxtral

Voxtral

集成语音转文本和理解能力的开源大模型

Index-TTS

Index-TTS

一个支持声音克隆的文本转语音工具

mlx-audio

mlx-audio

在Apple Silicon上高效运行的语音处理工具

Llasa-3B

Llasa-3B

一个精通中英双语的语音生成模型

Kokoro

Kokoro

一个轻量级、高效率的文本转语音模型库

OuteTTS

OuteTTS

一个将文本转换为自然语音的开源模型

IMS-Toucan

IMS-Toucan

用于训练文本转语音模型的工具包

Parler-TTS

Parler-TTS

由 Hugging Face 推出的轻量级文本转语音（TTS）模型库。

AssemblyAI

AssemblyAI

提供用于转录和理解语音的AI模型。

1
2
下一页
共 2 页

返回顶部