集成语音转文本和理解能力的开源大模型