"探寻未来人工智能交互技术：语音与视觉主导人机互动"

2023-06-16 10:48:01

人工智能时代主要的人机互交方式为语音和视觉，是对的。

到了2010年以后，借助于深度学习的力量，计算机视觉技术得到了爆发增长，实现了产业化。通过深度神经网络，各类视觉相关任务的识别精度都得到了大幅提升。

由于效果的提升，计算机视觉技术的应用场景也快速扩展，除了在比较成熟的安防领域应用外，也应用于金融领域的人脸识别身份验证、电商领域的商品拍照搜索、***领域的智能影像诊断、机器人/无人车上作为视觉输入系统等，包括许多有意思的场景：照片自动分类（图像识别+分类）、图像描述生成（图像识别+理解）等等。

语言交流是人类最直接最简洁的交流方式。长久以来，让机器学会“听”和“说”，实现与人类的无障碍交流一直是人工智能、人机交互领域的一大梦想。

第一个真正基于电子计算机的语音识别系统出现在1952年，AT&T贝尔实验室开发了一款名为Audrey的语音识别系统，能够识别10个英文数字，正确率高达98%。70年***始出现了大规模的语音识别研究，但当时的技术还处于萌芽阶段，停留在对孤立词、小词汇量句子的识别上。

以上内容来自网络，目的只是为了学习参考和传递资讯。

其版权归原创作者所有，如不慎侵犯了你的权益，请联系我们【qq123456】告知，我们将做删除处理！