51CTO诚邀您9月23号和秒拍/国美/美团云专家一路聊智能CDN的优化之路,抓紧时光哦!
为懂得决这个问题,我们必须应用一些特别的技能,并进行一些深度神经收集以外的特别处理。让我们看看它是若何工作的吧!
语音辨认正在「入侵」我们的生活。我们的手机、游戏主机和智妙手表都内置了语音辨认。他甚至在主动化我们的房子。只需50美元,你就可以买到一个Amazon Echo Dot,这是一个可以让你订外卖、收听气象预告、甚至是买垃圾袋的魔术盒,而这一切你只须要大年夜声说出:
这是应用深度进修进行语音识其余最高寻求,然则很遗憾我们如今还没有完全做到这一点(至少在笔者写下这一篇文┞仿的时刻还没有–我敢打赌,再过几年我们可以做到)
Aleax,给我订一个pizza!
Echo Dot 在2015年的圣诞假期一经推出就大年夜受迎接,在亚马逊膳绫擎急速售罄。
但其实语音辨认已经存在很多年了,那为什么如今才成为主流呢?因为深度辨认终于将语音辨认在非受控情况下的精确度进步到了一个足以投入实用的高度。
吴恩达传授曾经预言过,当语音识其余精确度大年夜95%晋升到99%的时刻,它将成为与电脑交互的重要方法。
下面就让我们来进修与深度进修进行语音室辨认吧!
机械进修并不老是一个黑盒
如不雅你想知道神经机械翻译是若何工作的,你应当猜到了我们可以简单地将一些声音送入神经收集,然后练习它使之生成文本:
一个大年夜问题是语速不合。一小我可能会很快的说出”Hello!”,而另一小我可能异常迟缓的说”heeeelllllllllllllooooo’!’,产生了一个拥有更多半据也更长的声音文件。这两个文件都应当被辨认为同一个文本–“Hello!”。而事实证实,把各类长度的音频文件主动对齐到一个固定长度的文本是很难的一件工作。
将声音转换为比特(Bit)
显然,语音识其余第一步是–我们须要将声波输入到电脑中。
我们应当怎么将声波转换为数字呢?让我们应用我说的「hello」这个声音片段举个例子:
声波是一维的,它在每个时刻都有一个基于其高度的值。让我们把声波的一小部分放大年夜看看:
为了将这个声波转换成数字,我们只记录声波在等距点的高度:
这被称为采样(sampling)。我们每秒攫取数千次,并把声波在该时光点的高度用一个数字记录下来。这根本上就是一个未紧缩的 .wav 音频文件。
“CD 音质”的音频是以 44.1khz(每秒 44100 个读数)进行采样的。但对于语音辨认,16khz(每秒 16000 个采样)的采样率就足以覆盖仁攀类语音的频率范围了。
让我们把“Hello”的声波每秒采样 16000 次。这是前 100 个采样:
每个数字代表声波在一秒钟的16000分之一处的┞否幅。
数字采样小助手
因为声波采样只是间歇性的攫取,你可能认为它只是对原始声波进行粗略的近似估计。我们的读数之间有间距,所以我们必定会损掉数据,对吧?
然则,因为采样定理(Nyquist theorem),我们知道我们可以应用数学,大年夜距离的采样中完美重建原始声波——只要我们的采样频率比期望获得的最高频率快至少两倍久煨。
预处理我们的采样声音数据
我们如今有一个数列,个中每个数字代表 1/16000 秒的声波振幅。
我们可以把这些数字输入到神经收集中,然则试图直接分析这些采样来进行语音辨认仍然很艰苦。相反,我们可以经由过程对音频数据进行一些预处理来使问题变得更轻易。
我提这一点,是因为几乎每小我都邑犯这个缺点,并误认为应用更高的采样率老是会获得更好的音频质量。其实并不是。
让我们开端吧,起首将我们的采样音频分成每份 20 毫秒长的音频块。这是我们第一个 20 毫秒的音频(即我们的前 320 个采样):
将这些数字绘制为简单的┞粉线图,我们就获得了这 20 毫秒内原始声波的大年夜致外形:
推荐阅读
51CTO诚邀您9月23号和秒拍/国美/美团云专家一路聊智能CDN的优化之路,抓紧时光哦! 跟着企业慢慢实现数字化,其信息安然的义务正在敏捷变更。采取新技巧如今可以实现营业计谋,并正在改变产>>>详细阅读
地址:http://www.17bianji.com/lsqh/37467.html
1/2 1