Hume
综合介绍
Hume AI是一家致力于构建能够理解并服务于人类情感福祉的人工智能的研究实验室和科技公司。 传统的人工智能通常能理解我们“说什么”,但忽略了我们“如何说”。Hume AI的核心技术旨在填补这一空白,通过分析语音中的音调、节奏和音色等细微差别来解读情感表达。 公司的旗舰产品是共情语音接口(Empathic Voice Interface, EVI),这是一种能够与用户进行流畅对话,并能理解用户语气、生成多样化声音表情的语音AI。 这项技术的目标是让机器与人的互动变得更加自然、更具同理心,最终提升人类的福祉。
功能列表
- 共情语音接口 (EVI): 提供能理解用户情绪并作出相应情感回应的对话式API,使应用程序具备情商。
- 情绪表达测量: 可通过API分析语音、面部表情、语言,从而精准识别超过48种情感维度。
- 语音语调生成: EVI能够根据对话情境和用户的情绪,生成带有同理心和自然语调的声音,例如用关心的语气回应用户的悲伤。
- 自定义声音与个性: 允许开发者通过文本提示创造出具有独特个性和风格的AI声音。
- 实时流式对话: 支持通过WebSocket进行实时音频流传输,实现低延迟的流畅双向对话。
- 高适应性与可中断性: EVI能准确判断用户何时结束发言,并能在用户插话时迅速停止,然后根据上下文继续对话。
使用帮助
Hume AI为开发者提供了一系列工具,让应用程序能够理解情感并以更人性化的方式进行交互。它的核心产品是共情语音接口(EVI)和表情测量API,两者都可以通过API集成到你的项目中。
第一步:获取API密钥
- 访问Hume AI的官方网站(
hume.ai
)。 - 注册一个新账户并登录。
- 登录后,在您的个人资料设置中找到API密钥。 这个密钥是您访问Hume所有服务的凭证,请妥善保管,不要在任何客户端代码中泄露。
第二步:了解核心API
Hume提供了两种主要的API接口,分别是REST API和WebSocket API,用于不同的使用场景。
- Expression Measurement API (表情测量): 这个API可以分析音频、视频、图像或文本数据,并返回详细的情感表达维度分数。 例如,你可以上传一段音频文件,API会返回其中包含的赞赏、困惑、喜悦等情绪的量化得分。 这对于需要理解用户情绪状态的应用(如市场研究、心理健康分析)非常有用。
- Empathic Voice Interface (EVI) API (共情语音接口): 这是Hume的核心对话式AI。 它不仅仅是简单的语音转文本再到文本转语音,而是能实时分析用户的声音情感,并生成带有相应情感语调的回应。 EVI主要通过WebSocket进行实时交互。
第三步:如何使用API
使用 Expression Measurement API (Batch模式)
如果你有已经录制好的音频或视频文件需要分析,可以使用Batch(批处理)模式。你需要向Hume的API端点发送一个POST请求,请求中包含你的API密钥和指向数据文件的URL。
这是一个使用curl
命令调用API的简单示例:
curl -X POST "https://api.hume.ai/v0/batch/jobs" \
-H "X-Hume-Api-Key: <YOUR_API_KEY>" \
-H "Content-Type: application/json" \
-d '{
"models": {
"face": {
"identify_faces": true
}
},
"urls": [
"YOUR_PUBLICLY_ACCESSIBLE_DATA_URL"
]
}'
这个命令会启动一个分析任务,稍后你可以通过另一个API调用来获取分析结果。
使用 Empathic Voice Interface (EVI) (WebSocket模式)
要实现实时对话,你需要使用WebSocket连接到EVI。 这种方式可以让你将用户的语音流式传输到Hume,并实时接收AI生成的语音回应。
以下是使用Python SDK建立WebSocket连接的示例代码:
import asyncio
from hume import HumeStreamClient
from hume.models.config import LanguageConfig
async def main():
# 1. 初始化客户端
client = HumeStreamClient("<YOUR_API_KEY>")
# 2. 创建一个语言配置,可以指定希望AI使用的模型
config = LanguageConfig(granularity="sentence")
# 3. 建立WebSocket连接并开始发送音频流
async with client.connect([config]) as socket:
# 在这里,你需要实现一个麦克风输入的逻辑,
# 将音频数据块通过 socket.send_bytes(audio_input) 发送出去
# 并通过 socket.recv() 接收来自服务器的响应
print("WebSocket连接已建立,请开始说话...")
# (此处省略了实际的音频I/O代码)
if __name__ == "__main__":
asyncio.run(main())
在这个流程中,客户端持续将麦克风捕获的音频数据发送给服务器。EVI会实时分析这些音频,一旦检测到用户停顿,它就会利用其内置的共情大语言模型(eLLM)生成回应,这个回应不仅内容贴切,其语调也会与用户的情绪相匹配(例如,对兴奋的语气报以积极的回应,对沮丧的语气报以安抚的回应)。
自定义声音和提示工程
Hume平台的一大特色是能够创建自定义声音。 你可以在Hume的网站工作台中,通过文字描述来定义一个声音的特征,比如“一个温暖、充满智慧的声音”或“一个充满活力的德州钓鱼大师的声音”。 此外,你还可以通过“Acting Instruction”(表演指令)来进一步指导AI的说话方式,比如要求它听起来“带点讽刺”或“害怕地低语”。 这些功能让开发者能够为自己的应用打造独一无二的AI角色。
应用场景
- 智能客户服务客户服务中心的AI客服可以利用Hume技术,实时感知客户在电话中的情绪,如愤怒或沮丧。 当检测到负面情绪时,系统可以自动调整回应的语调,使其听起来更有耐心和歉意,从而安抚客户情绪,提升服务质量和问题解决率。
- 个人健康与保健在心理健康或在线治疗应用中,集成了Hume AI的虚拟助手可以成为一个富有同理心的倾听者。 它能够通过分析用户的声音来理解其情绪状态,如焦虑或悲伤,并给予充满关怀和支持的回应,为用户提供情感支持。
- 互动娱乐与游戏游戏开发者可以利用Hume API创造出更加智能和逼真的非玩家角色(NPC)。 这些NPC能够对玩家说话的语气做出反应,如果玩家听起来很兴奋,NPC可能会分享这种喜悦;如果玩家听起来很害怕,NPC则可能提供安慰或警告,极大地增强了游戏的沉浸感和互动性。
- 教育和培训在教育工具中,AI导师可以根据学生的情绪状态调整教学方式。 如果系统检测到学生感到困惑或沮丧,它可以放慢语速,用更鼓励的语气进行讲解,从而创造一个更积极、更有效的学习环境。
QA
- Hume AI 和其他语音助手(如Siri或Alexa)有什么不同?最主要的区别在于对“如何说”的关注。传统的语音助手主要处理语言的字面意思(即用户的意图),而Hume AI则深入分析声音的音调、节奏和音色,以理解用户的情感状态。 这使得Hume AI能够生成带有相应情感的回复,让对话感觉更自然、更具同理心。
- 作为一名开发者,我需要什么来开始使用Hume AI?您需要先在Hume AI的官方网站注册并获取API密钥。 之后,您可以根据您的需要选择使用其提供的API。Hume为Python和TypeScript等语言提供了SDK,以方便开发者将其集成到自己的应用程序中。 他们的官方文档网站提供了详细的指南和代码示例。
- Hume AI支持哪些语言?Hume AI的技术核心是理解情感表达的普遍模式,这些模式在不同语言中都有体现。其Empathic Voice Interface (EVI) 支持多种语言,但具体支持的语种列表和功能可能有所不同。建议查阅官方最新的API文档以获取最准确的信息。
- 使用Hume AI的成本如何?Hume AI提供多种定价方案,包括一个免费套餐,通常包含每月一定数量的免费使用额度。 超出部分则按使用量计费。付费方案提供更多的使用量和高级功能。具体的定价会根据您使用的API(如EVI或表情测量)和用量而有所不同,详细信息可以在其官网的定价页面找到。