您现在的位置:首页 / 语音识别及语音可视化技术研究
语音识别及语音可视化技术研究

语音识别及语音可视化技术研究

资料大小: 39.14 MB
文档格式: PDF文档
资料语言: 简体中文
资料类别: 电子信息
下载说明:
推荐信息: 语音   识别   可视化   技术研究   韩志艳

本地下载(30点)  备用下载(30点)

内容简介
语音识别及语音可视化技术研究
出版时间:2017年版
内容简介
  《语音识别及语音可视化技术研究》系统地研究了语音识别与语音可视化问题。全书共分为9章。第1章介绍了课题的国内外研究现状、意义和需要解决的难题,第2章对语音信号的预处理技术进行了介绍,第3章介绍了语音静态特征参数提取方法,第4章介绍了语音动态特征参数提取方法,第5~7章介绍了基于小波包变换和K-L展开的语音识别方法、基于小波混沌神经网络的语音识别方法、基于遗传算法和Fisher投影的语音识别方法等的研究成果,第8章介绍了语音可视化技术,第9章归纳全书并对今后工作提出展望。
  《语音识别及语音可视化技术研究》的主要特点是在语音识别和可视化等方面提出了开创性的设计和分析方法,书中的内容来源于作者近几年来的创新性研究成果,新颖实用,研究方法先进,尤其注重语音识别和可视化算法的鲁棒性和实用性。
目录
第1章 绪论
1.1 语音信号研究背景概述
1.2 国内外研究现状
1.2.1 语音识别技术研究
1.2.2 语音可视化技术研究
1.2.3 语音信号特征参数提取技术研究
1.3 课题的研究意义
1.4 课题研究需要解决的难题
1.5 章节安排

第2章 语音信号预处理技术
2.1 概述
2.2 语音生成系统和语音感知系统
2.2.1 语音生成系统
2.2.2 语音感知系统
2.3 语音信号生成的产生模型
2.4 语音信号的时域波形
2.5 语音信号的采样和量化
2.6 语音信号的预加重
2.7 语音信号的分帧和加窗处理
2.8 语音信号端点检测技术
2.8.1 短时能零积法
2.8.2 信息熵法
2.8.3 频带方差法
2.8.4 HMM模型法
2.8.5 倒谱距离测量法
2.8.6 基于DWT的互相关函数法
2.9 一种低信噪比下的语音端点检测算法
2.9.1 降噪方法
2.9.2 子带能量的计算
2.9.3 鉴别信息的计算
2.9.4 算法描述
2.9.5 实验结果对比及分析
2.10 本章小结

第3章 语音静态特征参数提取
3.1 问题的提出
3.2 短时能量
3.3 短时平均幅度
3.4 短时过零率
3.5 短时自相关函数
3.6 短时平均幅度差函数
3.7 倒谱特征
3.7.1 基于线性预测的倒谱参数LPCC
3.7.2 基于Mel频率的倒谱参数MFCC
3.8 感知线性预测参数
3.9 共振峰特征参数
3.10 谐振强度特征参数
3.11 基于单边自相关序列的语音特征
3.12 基于独立分量分析的鲁棒语音特征
3.12.1 模型描述
3.12.2 频域独立分量分析
3.12.3 特征提取算法描述
3.13 基于线谱频率参数的语音特征提取
3.13.1 线谱频率参数分析
3.13.2 求解线谱频率参数的常用算法
3.13.3 求解线谱频率参数的快速算法
3.14 基于脉冲耦合神经网络的语音特征
3.14.1 PCNN模型结构及其原理
3.14.2 PCNN在图像特征提取中的应用
3.14.3 运用PCNN从语谱图中提取特征参数
3.14.4 语谱图
3.14.5 运用PCNN提取特征参数
3.15 耳蜗滤波器倒谱系数
3.15.1 耳蜗滤波器倒谱特征原理框图
3.15.2 听觉变换
3.15.3 耳蜗滤波器
3.15.4 毛细胞窗口
3.15.5 非线性响度变换和DCT
3.16 加权组合过零峰值幅度特征参数
3.16.1 CZCPA语音特征参数提取原理
3.16.2 差分原理
3.16.3 WCZCPA特征参数提取原理
3.17 基于二维根倒谱和CCBC的特征参数
3.17.1 二维根倒谱(TDRC)
3.17.2 CCBC算法
3.17.3 特征参数提取流程
3.18 基于改进LDA和PCA的语音特征参数
3.18.1 基于数据驱动线性特征转换的语音特征变换
3.18.2 改进的算法及其实现
3.19 基于MUSIC和感知特性的鲁棒特征参数
3.19.1 感知处理
3.19.2 PMUSIC-MFCC特征提取流程
3.19.3 实验结果对比
3.20 基于小波包变换的鲁棒特征参数
3.20.1 小波包分解
3.20.2 新参数的算法构想
3.20.3 小波包对频带的划分
3.20.4 小波函数的选取
3.20.5 新参数提取流程
3.20.6 实验结果对比
3.2 1本章小结

第4章 语音动态特征参数提取
4.1 问题的提出
4.2 基于MUSIC和调制谱滤波的动态特征参数
4.2.1 MUSIC谱估计
4.2.2 调制谱原理
4.2.3 MMS-MFCC特征提取流程
4.3 基于共振峰曲线的语音信号动态特征参数
4.3.1 动态特征提取流程
4.3.2 仿真实验
4.4 组合特征参数优化选择方法
4.4.1 基本正交实验设计简介
4.4.2 因子和水平的选择
4.4.3 正交表的选用及构造
4.4.4 正交实验结果与分析
4.4.5 对比实验结果与分析
4.5 本章小结

第5章 基于小波包变换和K-L展开的语音识别方法
5.1 问题的提出
5.2 小波包变换
5.3 特征提取
5.4 K-L展开
5.5 仿真实验结果
5.6 本章小结

第6章 基于小波混沌神经网络的语音识别方法
6.1 问题的提出
6.2 动态时间规整
6.3 小波混沌神经网络模型
6.4 WCNN学习算法
6.4.1 小波神经网络部分学习算法
6.4.2 混沌神经网络部分学习算法
6.5 实验结果及结论
6.6 本章小结

第7章 基于遗传算法和Fisher投影的语音识别方法
7.1 问题的提出
7.2 遗传算法
7.3 基于Fisher准则函数的最佳鉴别矢量
7.3.1 Fisher准则函数
7.3.2 最佳鉴别矢量基
7.4 混沌神经网络模型
7.5 实验及结果分析
7.6 本章小结

第8章 语音可视化技术研究
8.1 问题的提出
8.2 基于语谱图的可视化方法
8.3 基于LLE和模糊核聚类的可视化方法
8.3.1 局部线性嵌入(LLE)方法
8.3.2 改进LLE方法
8.3.3 核方法
8.3.4 模糊核聚类算法
8.3.5 仿真实验结果与分析
8.4 基于集成特征和神经网络的可视化方法
8.4.1 音素与音节
8.4.2 基音与四声
8.4.3 可视化系统结构模块
8.4.4 神经网络设计
8.4.5 图案信息编码
8.4.6 主颜色编码
8.4.7 图像位置信息映射
8.4.8 图像合成
8.4.9 仿真实验及结果分析
8.5 基于颜色和图案的汉语声韵母可视化方法
8.5.1 可视化系统结构
8.5.2 BP神经网络设计
8.5.3 共振峰特征映射主颜色信息
8.5.4 谐振强度和音长映射图像长和宽信息
8.5.5 组合特征映射图案信息
8.5.6 图像合成
8.5.7 仿真实验及结果分析
8.6 基于神经网络的汉语声韵母可视化方法
8.6.1 可视化系统总体结构
8.6.2 语音信号获取及预处理
8.6.3 语音特征提取及PCA降维
8.6.4 神经网络设计
8.6.5 位置信息映射
8.6.6 颜色信息获取
8.6.7 图像合成
8.6.8 仿真实验及结果分析
8.5 本章小结

第9章 结论与展望
9.1 本书主要工作及创新点
9.2 进一步研究的展望