1. 研究目的与意义
随着安全场所的身份鉴定,罪犯识别,电话银行业务以及电视传媒的视频切换等领域的需求日益增长,说话人识别研究工作越发的重要,说话人识别技术作为一种简单快捷的人机交互方式,在当今社会应用的十分广泛。
说话人识别技术相比于其他的人工智能技术,具有快速交互,学习能力强,实现成本低的优势,在各种的需要安全认证和人机交互的情景都可以应用说话人识别技术。
随着人工智能等技术的发展,说话人识别技术将有十分深远的发展前景。
2. 课题关键问题和重难点
本设计将实现基于hmm的文本相关说话人识别课题关键:隐马尔科夫模型方法:隐马尔科夫模型是一种随机模型,在语音识别中得到广泛的应用。
它把语音看成可观察到的观察值序列构成的随机过程,观察值序列是发声系统状态序列的输出,在使用隐马尔科夫模型进行识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和观察值输出概率矩阵。
识别计算未知语音在状态转移过程中的最大概率,根据最大概率的模型进行判决。
3. 国内外研究现状(文献综述)
近年来,随着互联网的迅猛发展,互联网上各种服务的日益增多和完善,身份认证已成为网络服务供应商提供各种服务的前提和重要组成部分,说话人确认技术具有生物特征不会丢失,也不易被窃取,并且对终端设备要求很低的优点,因而特别适合作为目前互联网上的一种身份认证手段。
在李霄寒,黄南晨,戴蓓倩的基于hmm-ubm和短语音的说话人身份确认[1]中提出了一种简单有效的与说话人有关的阈值设置方法,同时在确认系统中采用高斯混合模型(gmm)作为背景模型来模拟未知的冒认者的语音,在冒认文本多样化的情况下获得了比用隐马尔可夫模型(hmm)作背景模型更好的性能。
在此基础上实现了一个基于internet的与文本有关的远程语音身份认证系统,在实验测试和应用测试中均获得了满意的确认性能。
4. 研究方案
本课题基于hmm说话人识别,可分为训练阶段与识别阶段。
在训练阶段,针对各使用人对规定语句或关键词的发音进行特征分析,提取说话人语音特征矢量(例如倒谱等)的时间序列。
然后利用从左到右hmm建立这些时间序列的声学模型。
5. 工作计划
2022-2022-1学期:第15-16周:完成选题,查阅相关中英文资料。
第17周:与导师沟通进行课题总体规划。
第18-19周:导师下发的毕业设计(论文)任务书,学生根据导师的要求进行外文翻译,列出开题报告大纲,进行开题报告的撰写。
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。