什么是交互式人工智能(AI)?
交互式人工智能(CAI)使用机器学习(ML)的子集深度学习(DL),通过机器实现语音识别、自然语言处理和文本到语音的自动化。CAI流程通常用三个关键的功能模块来描述:
1. 语音转文本(STT),也称为自动语音识别(ASR)
2 自然语言处理(NLP)
3 文本转语音(TTS)或语音合成

图1:交互式AI构建模块
本篇白皮书详细介绍了自动语音识别(ASR)的应用场景,以及Achronix如何在实现ASR解决方案的同时将相关成本降低高达90%。
细分市场和应用场景
仅在美国就有超过1.1亿个虚拟助手在发挥作用[1],大多数人对使用CAI服务都很熟悉。主要示例包括移动设备上的语音助手,例如苹果的Siri或亚马逊的Alexa;笔记本电脑上的语音搜索助手,例如微软的Cortana;自动呼叫中心应答助理;以及支持语音功能的设备,例如智能音箱、电视和汽车等。
支持这些CAI服务的深度学习算法可以在本地电子设备上进行处理,或者聚集在云中进行远程大规模处理。支持数百万用户交互的大规模部署是一个巨大的计算处理挑战,超大规模的提供商已经通过开发专用的芯片和设备来处理这些服务。
现在,大多数小型企业都可以使用亚马逊、IBM、微软和谷歌等公司提供的云API,轻松地将语音接口添加到他们的产品中。然而,当这些工作负载的规模增加时(本白皮书后面将介绍一个具体的示例),使用这些云API的成本将会变得过高,迫使企业寻求其他解决方案。此外,许多企业运营对数据安全性有更高的要求,因此需要将解决方案必须保留在企业的数据安全范围内。
企业级CAI解决方案可用于以下应用场景:
· 自动呼叫中心
· 语音和视频通信平台