联创资讯

"探寻未来人工智能交互技术:语音与视觉主导人机互动"

104

人工智能时代主要的人机互交方式为语音和视觉,是对的。


到了2010年以后,借助于深度学习的力量,计算机视觉技术得到了爆发增长,实现了产业化。通过深度神经网络,各类视觉相关任务的识别精度都得到了大幅提升。


由于效果的提升,计算机视觉技术的应用场景也快速扩展,除了在比较成熟的安防领域应用外,也应用于金融领域的人脸识别身份验证、电商领域的商品拍照搜索、***领域的智能影像诊断、机器人/无人车上作为视觉输入系统等,包括许多有意思的场景:照片自动分类(图像识别+分类)、图像描述生成(图像识别+理解)等等。


语言交流是人类最直接最简洁的交流方式。长久以来,让机器学会“听”和“说”,实现与人类的无障碍交流一直是人工智能、人机交互领域的一大梦想。


第一个真正基于电子计算机的语音识别系统出现在1952年,AT&T贝尔实验室开发了一款名为Audrey的语音识别系统,能够识别10个英文数字,正确率高达98%。70年***始出现了大规模的语音识别研究,但当时的技术还处于萌芽阶段,停留在对孤立词、小词汇量句子的识别上。

标签: 人工智能 视觉