最近这段时间总有小伙伴问小编语音信号处理(基于AI的语音信号处理技术)是什么,小编为此在网上搜寻了一些有关于语音信号处理(基于AI的语音信号处理技术)的知识送给大家,希望能解答各位小伙伴的疑惑。

语音信号处理(基于AI的语音信号处理技术)

1.声音信号

技术思路和原理分析


(相关资料图)

语音唤醒的原理是让模型学习特定唤醒词的语音信号特征。当输入设备捕获到一定阈值范围内的语音信号时,当前设备将被唤醒,否则,设备将一直处于待机状态。比如小米音箱,我们在使用它的时候,一般会喊一声“小爱同学”,然后让它执行我们的命令,比如换一首歌或者降低音量。这个“小爱同学”发出的语音信号,就是模特需要学习的标签。当模型学习到一定数量的标签,下次听到这个标签的声音就会有反应,设备就会被唤醒。语音唤醒的方法有很多种,包括基于传统机器学习的方法和基于深度学习的方法。这里只是介绍一些流行的深度学习方法,比如基于CNN的关键词识别模型,基于CRNN的关键词识别模型,基于SEQ2SEQ的关键词识别模型等。无论哪种方法,首先将语音波形转换成频谱,频谱通过梅尔滤波器组得到梅尔频谱,然后对梅尔频谱进行倒谱分析得到梅尔频率倒谱系数MFCC,这就是语音的特征。此时,语音可以用一系列倒谱向量来描述,每个向量就是每帧的MFCC特征向量。这样,语音分类器可以通过这些倒谱向量来训练和识别。

应用场景和商业价值

目前市面上几乎所有的智能语音产品都有语音唤醒装置。在执行任何命令之前,都要添加一个关键字来唤醒设备,关键字的主要作用在于更好地执行命令,节约能源,延长设备的使用寿命。如果语音设备没有唤醒装置,则意味着它一直处于开启状态。如果你想对它发号施令,你必须有非常高的智能。否则设备很难判断你是在对它发号施令还是在和朋友聊天。

第二,语音命令

技术思路和原理分析

语音命令,顾名思义,就是给智能设备下命令,然后让它们执行。在语音唤醒的介绍中,我提到了语音唤醒和语音指令的关系。语音唤醒是在执行语音命令之前让设备工作。所以语音指令一定是语音醒来后的作品,否则语音指令就变得没有意义了。语音命令主要是一些简短的语音单词组成的信息,比如开台灯、关台灯、开灯、暖灯条等等。像这样带动词的词,可以看作是祈使句。它的处理原理和过程和语音唤醒一样,都是通过人发出的声波的一系列变化来获得语音信号的特征。最后,对特征进行分类和处理。

应用场景和商业价值

语音指令的应用在日常生活中也很常见,比如手机导航,Windows电脑程序导航,小米音箱,百度地图导航,还有一些K12的教育产品,日常生活中都会用到。基本上,语音命令是用来控制程序的。语音指令控制程序的优点是方便快捷,对于老人和小孩,以及上肢行动不便的人更方便。

第三,声纹识别

技术思路和原理分析

声纹识别就是把一个人的声音和他剩余的声音进行匹配。声纹识别作为一种生物信息,在各种程序中作为识别密码使用。和指纹识别、人脸识别一样,在识别之前,需要对被识别人的身份信息进行采样存储,便于后期的比对识别。在深度学习中,声纹识别和语音唤醒、语音命令等其他语音操作一样。,首先对接收到的声波进行转换得到频谱图,然后使用Mel频谱互逆分析提取特征。

应用场景和商业价值

声纹识别的应用主要用在一些敏感的场景,比如登录识别、用户信息验证等。其功能与键盘输入识别、指纹识别、人脸识别相同。声纹识别对环境的要求较高,一般来说在比较安静的环境下声音识别效果更好;反之,如果环境嘈杂,识别验证的效果就差。另一个人的声音会随着年龄和身体状况的变化而变化,所以不是很稳定。声纹识别虽然有一些缺点,但也有它的优点,主要是相对容易获得声音。只要环境安静,声音的验证更方便,用户接受度更高。

四。语音识别(STT)

技术思路和原理分析

语音识别是从波形到相应文本信息的口语语音的一系列转换。在这个过程中,有一个中间特征对应着两边的语音和文字。简单来说,就是先把语音转换成某种特征图,再把特征图和文本信息对应起来。因为它是从声音到文本的转换,所以也被称为STT(语音到文本)。语音转文字的具体技术和语音唤醒是一样的。首先要把波形图转换成频谱图,然后根据梅尔倒谱系数提取特征,使特征能对应指定的文本信息。

应用场景和商业价值

语音识别的优点是可以代替键盘快速输入文本信息。比如在一些聊天软件上和对方交流的时候,你想发给对方的是文字信息,但是不方便键盘输入。这时候你可以利用语音识别技术,在发送之前,自动将语音转换成文本。另外,广义的语音识别包括所有的语音操作技术,包括语音唤醒、语音命令等一系列语音相关的技术。

动词 (verb的缩写)语音合成

技术思路和原理分析

语音合成和语音识别的应用方向正好相反。语音识别是STT(语音到文本),语音合成是TTS(文本到语音)。从两者的名字可以看出,语音合成的输入是文本信息,输出是声音信息。从技术上来说,这可以看作是STT的反向操作。目前主要有两种语音合成方法:拼接合成语音和参数合成语音。

应用场景和商业价值

虽然目前的语音合成技术还不是很成熟,但是已经在一些要求不高的应用中得到了应用。目前,语音合成广泛应用于新闻广播行业,如搜狗人工智能合成主播。有了AI合成主播,新闻机构可以做一些简单的播报。当然,国外也有人用这种技术配合图像合成技术 *** 了总统演讲的视频。表情和声音都挺像的,不仔细甄别还真看不出来。