模仿真人说话声音的生成式语音模型。