关键词:语音识别; SPCE061A; 电风扇控制系统 摘要本文主要讨论基于语音识别的电风扇控制系统。 控制系统采用Sunplus16单片机微处理器,其运行核心组成语音输入输出电路、电风扇驱动电路。 语音识别控制系统充分利用10路高精度AD资源凌阳单片机SPCE061A一定的控制命令信号。 同时配置了10路高精度DA资源的语音信号充分利用了输出数据。 DA芯片,因此可以简化系统更多的成本。当给定的人发出语音命令时,单片机开始语音信号比较识别语音样本。 比较识别采用DTW动态时间算法。 识别完成后,单片机发出电子风扇电平。 设计过程中,采用了LCD模块,可以让指挥员了解电风扇的工作情况,目前语音识别技术存在的缺点——准确率低,抛光点准确率语音识别系统指挥员控制电风扇。 此外,另一篇专题论文具有较高的实际适用性。 语音识别系统可以通过适当改造硬件电路来控制其他家用电器。 而且,与目前市场上的其他语音识别产品相比,设计过程的成本相对较低。 关键词:语音识别; SPCE061A; Electronicfan 控制系统 1.1 项目设计背景 1.2 国内外语音识别发展现状 1.3 语音识别技术的应用领域 1.4 控制系统设计的主要任务 2.1 模型匹配方法 2.1.1DTW 动力学时间规整算法 2.2 语音识别的分类 3.1 选型主控系统处理芯片及演示 3.2 系统驱动电路方案演示及选型 3.3 总体方案设计 硬件电路设计 10 4.1 主控系统设计 10 4.1.1 Sungyang 单片机 SPCE061A 最小系统设计 10 4.1.2 系统电源设计 11 4.1.3 音频输出电路设计 11 4.1.4 音频输入电路设计 12 4.1.5 显示电路设计 12 4.1.6 I/O 接口电路设计 13 4.2 驱动电路设计 13 4.3 电风扇内部电路改造: 15软件设计 15 5.1 音频概述 15 5.2 数字音频的采样和量化 15 5.3 音频格式简介 16 5.3.1 声音文件的格式 16 5.4 语音压缩编码基础知识 17 5.5 本系统中使用的音频讨论 19 5.5.1本系统音频压缩算法编码标准 19 5.5.2 压缩分类 19 5.5.3 本系统音频形式及压缩算法 20 5.6 本系统应用程序接口 API 功能 20 5.6.1 概述 20 5.7 自制控制系统中使用的语音资源 21 5.8 自制控制系统中使用的语音资源总结 22 5.9 程序设计 23 5.9.1 程序控制思想 23 5.9.2 程序流程图 24 5.9.3 程序中编写的重要文件 25 5.9.4 程序中编写的重要功能 25 系统调试 28 6.1 硬件调试 28 6.1.1 主控模块调试 28 6.1.2 驱动模块调试 29 6.1.3 电风扇电路改造检查 30 6.1.4 系统硬件电路连接 31 6.2软件调试 31 结论 32 33 参考文献 34 引言 1.1 项目设计背景 语言是人类特有的功能,是人们思维最重要的支撑,是人类交流最重要的方式。
语音是语言的声学表达,是人类交流信息最自然(//./lixue/)、最有效、最便捷的方式。 语言和言语与人类社会科学的文化发展密切相关(http://./工学/)。 语音识别研究的根本目的是开发一种具有听觉功能的机器,能够直接接受人们的口头命令,理解人们的意图并做出相应的反应。 语音识别系统的研究涉及计算机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等多个学科,是一个多学科综合研究领域。 1.2 国内外语音识别的发展现状 1.2.1 国外语音识别的现状 语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统。 这是第一个可以识别十个英文数字的语音识别系统。 。 但直到 20 世纪 60 年代末和 70 年代初才取得实质性进展并作为一个重要课题进行研究。 这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件(http://baike.baidu/view/37.htm" “_blank)的可能性,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效解决了语音信号的特征提取和不等长匹配问题。
这一时期的语音识别主要是基于模板匹配的原理。 研究领域仅限于特定人群和小词汇表的孤立单词识别。 实现了基于线性预测倒谱和DTW技术的针对特定人群的孤立词语音识别系统; 同时,矢量量化(VQ)和隐马尔可夫模型(http://baike.baidu/view/1174010.htm" "_blank)(HMM)理论。 随着应用领域的扩大,小词汇量、特定人群、孤立词等对语音识别的限制需要放宽。 同时也带来了许多新的问题:一是词汇量的扩大使得模板的选择和建立变得困难; 其次,在连续语音中,每个音素、音节和单词之间没有明显的界限,每个发音单元都存在受上下文强烈影响的协同发音(Co-articulation)现象; 第三,非特定人识别当不同的人说同样的话时,对应的声学特征有很大不同。 即使同一个人在不同的时间、生理和心理状态下说同样的话,也会有很大的差异; 第四、识别语音中有背景噪音或其他干扰。 因此,原来的模板匹配方法已经不再适用。 实验室语音识别研究的巨大突破发生在20世纪80年代末:人们终于在实验室中突破了大词汇量、连续语音和非特定人群三大障碍,并首次将这三个特点整合到一个之中系统中,卡内基梅隆大学的Sphinx系统(http://baike.baidu/view/1020193.htm" "_blank)是第一个高性能人——中性的、大词汇量的连续语音识别系统。
这一时期,语音识别研究更进一步,其显着特点是HMM模型和人工神经网络(ANN)在语音识别中的成功应用。 HMM模型的广泛应用可以归功于AT&T贝尔实验室的Rabiner等科学家的努力。 他们设计了原本很难的HMM纯数学模型,让更多的研究人员能够了解和了解它,从而使统计方法成为语音识别技术的主流。 。 统计方法将研究人员的注意力从微观转向宏观。 他们不再刻意追求语音特征的精细化,而是从整体平均(统计)角度构建最好的语音识别系统。 声学模型方面,马尔可夫链(http://baike.baidu/view/991920.htm"