人工智能时代主要的人机互交方式为语音和视觉,是对的。
到了2010年以后,借助于深度学习的力量,计算机视觉技术得到了爆发增长,实现了产业化。通过深度神经网络,各类视觉相关任务的识别精度都得到了大幅提升。
由于效果的提升,计算机视觉技术的应用场景也快速扩展,除了在比较成熟的安防领域应用外,也应用于金融领域的人脸识别身份验证、电商领域的商品拍照搜索、***领域的智能影像诊断、机器人/无人车上作为视觉输入系统等,包括许多有意思的场景:照片自动分类(图像识别+分类)、图像描述生成(图像识别+理解)等等。
语言交流是人类最直接最简洁的交流方式。长久以来,让机器学会“听”和“说”,实现与人类的无障碍交流一直是人工智能、人机交互领域的一大梦想。
第一个真正基于电子计算机的语音识别系统出现在1952年,AT&T贝尔实验室开发了一款名为Audrey的语音识别系统,能够识别10个英文数字,正确率高达98%。70年***始出现了大规模的语音识别研究,但当时的技术还处于萌芽阶段,停留在对孤立词、小词汇量句子的识别上。
以上内容来自网络,目的只是为了学习参考和传递资讯。
其版权归原创作者所有,如不慎侵犯了你的权益,请联系我们【qq123456】告知,我们将做删除处理!