处理语音和文本的统一语言模型