小米彩票代理 | 网络工程部 | 网络产品部 | 维护部 | 网站建设部 | 技术中心 | 成功案例 | 方案中心 | 宣传页展示 | 招贤纳士 | 网站制作 |联系我们
南京直销零售客户登录
账 号:
密 码:

验证码:
  网卡
  交换机
  路由器
  程控交换机
  ADSL
  xDSL设备
  网关
  中继器
  模块接口卡
  集线器
  测试仪
  机柜
  收发器
  收发器
 
        南京纵网行网络工程有限公司 >> 商城新闻

语音识别

发布人:网络 浏览 709 次【字号 】 发布时间:2015年11月16日 打印本页

    
连续数字语音的研究一直是语音识别领域中非常重要的课题。连续数字语音识别的主要难点在于:(1)连续数字串中的数字是任意组合的。(2)不确定数字串的长度,很难准确判别连续数字串中的字间的边界。(3)识别性能的好坏完全依赖于底层的识别算法,没有可供借鉴的高层知识。
  在互倍息估计现有成果基础上,本文研究了一个汉语连续数字语音,其中包括语音倍号的预处理部分、识别模板的训练、识别匹配算法以及后续处理部分,系统的核心识别算法,采用了互倍息估计的思想。
  1语音信号的预处理部分语音识别系统中,端点检测是预处理中的关键一环,检测语音倍号的端点即适当地抛弃语音倍号前后的音帧,取得真正的包含语音倍号的数据帧。端点检测的精度对于最终系统的识别率有着很重要的影响。
  语音倍号一般分为无声段、清音段及浊音段。其中,无声段的平均能量最低,浊音段的平均能量最高,而清音段在两者之间。在环境声较低的情况下,清音段的平均能量比无声段高出几倍甚至几十倍,而浊音段同无声段相比则会高出几十至上百倍,因此可以用短时平均能量进行粗略的切分。除了短时能量之外,短时过零率在检测中也很重要,语音倍号的三段中,一般清音段的过零率最高;无声段比浊音段低一些。
  定义第!帧的语音倍号的能量为:!"!|"(%)|,其中(%)表示第!帧语音倍号的时域值,"为帧长,()表示的是窗函数,一般取矩形窗或者海明窗。
  帧长一般不会完全一样,设为,-,提取的特征参数!*,2,分别为+(n,(l2……(l)j及+(22,(22……(2/,对这样的模式聚类与常规的维数相同的模式聚类相比需要对传统的聚类方法进行改进。
  文中采用的是改进的/均值算法MKM,算法的基本步骤设某一个数字的一次发音为其中!=1,2……,表示这个数字有"遍发音,即共有"个矢量,组成矢量集!=%!",……!"',对每两个矢量序列之间匹配计算,最终要将!聚成类,分成的类别数事先指定,或者根据某些准则自动确定,本文采用事先指定的方法。!为最大的迭代次数,算法依次发现j个类,即;=1,2……',"为事先指定的类别数。
  初始化:计算整个训练集的聚类中心。
  最小距离分类:针对每个训练模式)*,根据最小距离准则标上索引!,)!,当且仅当下式成立时%计算每一类的类内距离之和:调整聚类中心及各中心内的训练模式矢量,得出新的分类。1及。1的聚类中心。
  收敛性检验,检查三个条件,满足其中之一即转到(5)。
  平均类内距离变化小于一个预设的门限值!,即:保存聚类结果,如果收敛,将得到j类及其聚类中心+如果J为预设的最大类别数',则聚类过程结束,否则转下一步。
  (6)将平均类内距离最大的类再分成两类,分裂方法为找到类内的两个矢量!*1和!*,比较它们间的距离和类内任意两个矢量间的距离,使得:这样!*1和!*2成为两个新的聚类中心。再重新设=1,重复前面的(2)~(5)步笈。
  需要说明的是,由于识别算法是基于互倍息估计的,因此本文在聚类算法中类别之间的距离也采用的是计算两个模式间的互倍息的值。
  另外,MKM算法中求聚类中心的方法需要特别指出与矢量量化中求码书不一样,因为前者处理的是维数不同的矢量。
  本文实验了如下方法处理中心的求解。
  其中X.表示中心的第J帧矢量,X表示类中的第6个模式的第/(!)帧矢量,即聚类中心的各帧矢量是各个模式映射后的平均值。
  不过可以看出这个映射是线性映射,在模式间的差异不太大时比如同一个人的某一个数字的多遍发音完全可以这样来求中心。
  本文实验时设计了一个结构体aCluster和一个类System实现聚类算法。
  doubleCenter;//用来存放每一类中心的模式下标;//用来存放每一类中心的各维矢量对某一类中的各个训练模式取平均,即假设类中有i个模式!1,……!1,各自的帧长为21,2…2i.3连续语音识别匹配算法①求出它们的平均值作为中心矢量的帧长。连续数字的识别任务是找到与模板失真度最小的数②将该类中的各个矢量映射到中心帧长上,利用下式:字的串联联接,即可以归结为找最优路径问题。连续语音识别的中,主要有两种技术:(1)采用一些特征参数进行预先切分,将识别单元一个个分开,然后再用每个切分后的单元进行识别,这种技术的关键问题是如何找到准确的切分准则;(2)在识别阶段进行动态的分割,直到动态路径搜索完毕后,再进行路统算法取12阶参数获得的识别效果相当。
  (下转162页)径回溯才能确定切分点以及得到识别结果,如Sakoe的Two-Level动态规划算法、Myers和Babiner的Level-Building(LB)算法、Vintsyuk的OneStage动态规划算法。
  就前者而言,一般采用原始语音倍号的短时能量和短时过零率进行预先的切分,切分后得到的各个语音段分别由对应的语音模型处理,这种方法很大程度上依赖于切分算法的好坏。
  这种方案对于连续语声流中各个字间有较大的空隙效果比较好,但是连续自然发音的语声流利用这种方法得到的效果就有些差强人意了。而第二种方法的提出就是为了克服预先切分再识别的缺陷,这种方法的基本发展过程如下'Sakoe首先提出了“TwoLevelDP”算法,该算法分为两个阶段的DP过程,第观察序列所有可能的子段间的最优匹配问题;第二个DP过程(wordsequencelevel)利用前一个DP过程前求得的路径得分,以总体路径最优为原则,最优化地估计出多个序列的排列问题。为进一步降低“Two Building”算法更为有效的连接i司搜索算法“OneStage”
  算法。
  本文利用互倍息估计的思想,研究了两种匹配搜索算法关于两个算法的洋细原理参见作者另文阐述M,此处仅作简单描述。
  设测试语音模式的!帧、模式"、模式的J帧组成一个栅掐点(!,"),连续数字的识别问题可以归结为求起点为(0,0,0)的三维最佳路径,OneStage算法中每一步计算的局部帧距离一般采用欧氏距离,而MIOneStage算法每步计算的是匹配的互倍息的值,特征参数在2阶、3阶时即基本达到了前者12阶参数的识别效果,识别的速度也基本相当。
  Building(LB)算法的基本思想是将模式与测试模式进行分层匹配,即首先对未知测试模式进行逐点匹配,求出当前层内的最可能路径,然后再逐层匹配以求出整个过程中的最可能的路径。
  LB算法在每一步的匹配计算中一般采用DTW的方法,失真测度为欧氏距离,计算中仅考虑到时变分布特征,而互倍息匹配模型基础上提出的MIMLB算法既考虑了时变分布特征又考虑了统计分布特征。
  4识别系统的后续处理汉语的韵律倍息在汉语辩意中有着重要的作用,本文初步研究了在识别中利用韵律倍息提高识别率的可行性,韵律倍息包括汉语数字的声调倍息等。
  提高汉语数字语音识别率可以考虑从汉语自身的特点出发,汉语是一种有调语音,声调携带有非常重要的起辨意作用的倍息,这是汉语区别于英语的一个重要特征。因此,建立声调模型对于汉语数字语音识别有重要意义,而声调的判别则依赖于准确的基音周期估计(基音检测)。
  最高,占到了总识别错误的302以上,还有“liu4”和“qiu3”的误识率也较高,设法提高这些易混数字对的识别率对于提高整个系统的识别率有重要影响。
  语音倍号的采样率为11.025kH,进行了低通滤波的预处理,在后处理中采用了5点中值平滑滤波。
  以下的方程中,%()和'()为语音采样序列,(为矩形窗的窗长(采样点数),为基音周期的范围,本文取20~200个采样点。
  当语音倍号变化较平缓时,采用AMDF法进行估计可以得到较好的精度和稳定性,但幅度或者频率快速变化时,精度会明显下降,影响声调判别的准确率。在AMDF法中,平均幅度差的计算范围随着滞后!的增大而减小,影响了估计的精度,改进后的方法IAMDF法将平均幅度差的计算范围作了调整,并引入了一个分母项。
  引入分母相当于能量归一化,保证了基音周期的平滑和连续性,该方法有效克服了AMDF法的累积误差。
  5部分实验结果连续数字串的发音中,如八位电话号码“67160719”,一般人们都是分为两段来发音即“6716——0719”,两段间的间隔是比较大的,可以事先较为准确地切分为两段,再对段内的数字串应用识别算法,因此本文实验中的数字串只采集了二字词、三字词及四字词。
  实验中提取的特征参数为加权倒谱系数,原始语音倍号经过如下的处理:帧长400点,帧移200点;即。/)/='-为预加重后的数据点,'为语音倍号的原始数据点,为预加重系数实验中取0.93. 0~9十个数字每个录制5遍,计有50个*.wav文件用于训练模板;数字串60个,计60个*.wav文件均用于测试,尽可能考虑到各个数字的均匀分布。
  表1MIOneStage算法识别结果2阶3阶12阶个数正识率个数正识率个数正识率测试集LB算法识别结果2阶3阶12阶个数正识率个数正识率个数正识率测试集从实验结果来看,本文的两种识别算法在连续数字的识别任劳中是有效的,算法在参数阶数取为2阶、3阶时基本和传W计算可能移动距孺!2;令/广1至吓-1*字符为如,且叱的长度为*;在+'中搜索是否存在)';(存在)计算移动距孺!1'李昀等。面向入侵检测的模式匹配算法。计算机工程与应用,2003;39(6):1~2(上接118页)6进一步的工作在汉语连续数字发音中,擦音、塞擦音作为声母时与前面韵母的区分相对比较容易,利用这个特性可以事先对一个连续数字语音串进行预切分,将它先分成几段,再来进行识别,这样一方面有利于最终连续数字串中各个数字间隔的确定,同时也减轻了后面的识别算法的搜索强度,节约了时间。
  连续数字的协同发音现象也影响着识别率的进一步提高,的价值。文中提出的方法,为每一个数字建立多层的贝叶斯模型,模型包括三个部分,开始部分、中间和结束部分,三个部分分别代表受前面数字影响的部分、数字自身特征以及受后续数字影响的部分。每一部分根据贝叶斯准则来组成贝叶斯模型,并且利用最大似然估计进行模型的训练。


发布人:网络 发布时间:2015年11月16日 已被浏览 709
   
    友情链接:
 小米彩票代理 | 关于我们 | 联系我们 | 版权声明 | 留言/建议/投诉
 网站备案:
 客服邮箱:njzwxwl@163.com 客服电话:13770703638 邮政编码:210000

亿信彩票 小米彩票代理500万彩票手机app下载 亿信彩票手机官网 幸运时时彩 小米彩票网址多少 一分时时彩 500彩票网 小米彩票登陆 亿信彩票主页 亿信彩票注册