当前位置：首页科普知识连续语音识别

连续语音识别

发布时间:2023-09-15 15:20:14

连续语音识别，是指针对连续音频流（即来自说话人直接录入的语音，或者电话或其他音视频领域的音频信号）进行识别，将音频信息自动转化成文字。

连续语音识别介绍

语音识别是人机交互的一项关键技术，在过去的几十年里取得了飞速的进展。传统的声学建模方式基于隐马尔科夫框架，采用混合高斯模型( Gaussian mixturemodel，GMM) 来描述语音声学特征的概率分布．由于隐马尔科夫模型属于典型的浅层学习结构，仅含单个将原始输入信号转换到特定问题空间特征的简单结构，在海量数据下其性能受到限制。

连续语音识别，是指针对连续音频流（即来自说话人直接录入的语音，或者电话或其他音视频领域的音频信号）进行识别，将音频信息自动转化成文字。在输入的声音中，检测出可靠的语音，排除静音、背景噪声、音乐等，判断男女，实时送入语音识别解码器进行识别。

连续语音识别方法

1、隐式马尔科夫模型

隐马尔科夫模型是一种统计模型，它用来描述 1 个含有隐含未知参数的马尔科夫过程，广泛运用于语音识别中。1系统首先由大量的文字生成语音模型，然后提取声学特征，经过 Viterbi解码得到识别结果。

2、基于卷积神经网络的方法

卷积神经网络通过卷积器对局部特征进行分析，通过聚合层加强抽取出来的特征鲁棒性，最后通过全网络层建立模型得到最后的分类结果。卷积神经网络通过卷积层对局部特征进行观察，再经过全网络层的信息整合最终得到输出概率，相比深层神经网络具有更好的物理意义。

连续语音识别应用

1、在安全领域，相关部门结合相关业务提出了相应的需求；在教育领域，大人群的普通话水平测试与口语评估迫切需要客观的、自动的评估技术；

2、在电信领域，国内外语音识别技术和部门进入了中国市场；

3、在手机、汽车导航等嵌入式市场，对语音识别技术需求也日益增长；

4、在人机交互领域，语音伴侣、移动终端的语音搜索等得到广泛的应用。

因此，语音识别技术作为非常重要的人机交互的技术，有着非常广阔的前景。

温馨提示：

本文【连续语音识别】由作者 爱百科 转载提供。该文观点仅代表作者本人，自学教育网信息发布平台，仅提供信息存储空间服务，若存在侵权问题，请及时联系管理员或作者进行删除。