[Update] 【语音识别】语音识别技术入门_小哲的博客-CSDN博客 | 语音识别 – Pickpeup

语音识别: คุณกำลังดูกระทู้

语音识别技术入门

  • 语音识别极简史
    • 语音识别早期探索
    • 概率模型一统江湖
    • 神经网络异军突起
  • 语音识别系统架构
    • 经典方法的直观理解
    • 概率模型
    • 端到端语音识别
  • 语音识别的一些细节
    • 语音信号处理
    • 发音和语言学
    • 语音识别系统的评价

**语音识别技术就是让智能设备听懂人类的语音。它是一门涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多学科交叉的科学。**这项技术可以提供比如自动客服、自动语音翻译、命令控制、语音验证码等多项应用。近年来,随着人工智能的兴起,语音识别技术在理论和应用方面都取得大突破,开始从实验室走向市场,已逐渐走进我们的日常生活。现在语音识别己用于许多领域,主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台,智能客服等。

**语音识别技术就是让智能设备听懂人类的语音。它是一门涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多学科交叉的科学。**这项技术可以提供比如自动客服、自动语音翻译、命令控制、语音验证码等多项应用。近年来,随着人工智能的兴起,语音识别技术在理论和应用方面都取得大突破,开始从实验室走向市场,已逐渐走进我们的日常生活。现在语音识别己用于许多领域,主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台,智能客服等。

语音识别极简史

18世纪末、19世纪初,发明家Wolfgang von Kempelen设计并发燥了一款手动操作的机器,可以发出简单的声音。
19世纪末,发明家Thomas Edison发明了留声机。

现代语音识别起始于1952年贝尔实验室发布了一个叫作Audrey的机器,可以识别one、two等十个英文单词。

语音识别早期探索

基于模板匹配的语音识别方法:将训练语料中的音频提取声学特征后保存起来作为模板,当有新的音频输入机器的时候,机器会用同样的方式提取声学特征,并且和之前保存的语料特征做比较,如果新提取的特征和已经保存的特征模板比较接近,则认为两者输入的词语是同样的,系统输出模板对应的文字。

概率模型一统江湖

20世纪70年代,概率模型引入语音识别领域。在这个过程中,隐马尔可夫模型(HMM)在语音识别中的应用居功至伟。HMM使用两个随机过程:即状态转移过程和观察量采样过程,将从声音特征到发音单元的转换过程建模成一个概率问题,通过已经有的语音数据训练隐马尔可夫模型的参数。在解码时,利用相应的参数,估计从输入声学特征转换成特定发音单元序列的概率,进而得到输出特定文字的概率,从而选取最有可能代表某一段声音的文字。

神经网络异军突起

早期神经网络在语音识别过程中一般是用高斯混合模型(GMM)来建模的,在“混合模型”中,高斯混合模型被神经网络所代替,由神经网络对输出的概率分布进行建模,这其中所使用的神经网络可以是前馈神经网络、递归神经网络等。
2010年,研究人员以上下文相关的三音子作为神经网络的建模单元,并且用最好的基于隐马尔可夫、高斯混合模型的语音识别系统生成的对齐数据作为神经网络的训练数据,适当调节隐马尔可夫模型的转换概率,生成的基于隐马尔可夫模型、神经网络模型的语音识别系统(NH-HMM)的效果更好。
2014年左右,研究人员使用双向长短期记忆网络(BLSTM),附之以一个叫作Connectionist Temporal Classification(CTC)的目标函数,可以直接将音频数据转换成文字,而不需要经过传统的中间建模单元,这种方式成为“端到端”系统。

语音识别系统架构

经典方法的直观理解

首先,声音是一种波。语音识别所面对的就是经过若干信号处理之后的样点序列,也称为波形(Waveform)。
语音识别的第一步是特征提取。特征提取是将输入的样点序列转换成特征向量序列,一个特征向量用于表示一个音频片段,称为一帧(Frame)。一帧包含若干样点,在语音识别中,常用25ms作为帧长(Frame length)。为了捕捉语音信号的连续变化,避免帧之间的特征突变,每隔10ms取一帧,即帧移(Frame shift)为10ms。

采样是声波数字化的方法,而分帧是信号特征化的前提。分帧遵循的前提是,语音信号是一个缓慢变化的过程。因此,在25ms内,认为信号的特征是平稳的,这个前提称为短时平稳假设。

在现代语音识别系统中,所有常见的发音组合可以表示成一个巨大的有向图,这可以利用HMM进行建模。语音的每一帧都对应一个HMM状态。从HMM中搜索累计概率最大的路径,其搜索算法为维特比(Viterbi)算法。HMM中的累计概率最大的路径所代表的发音内容就是语音识别的结果。这个搜索过程在语音识别中也称为解码(Decode)。路径的累积概率通过概率模型获取。

概率模型

假设X是输入的音频信号,w是单词序列,在概率模型下,语音识别的任务其实就是在给定音频信号X的前提下,找出最后可能的单词序列W*。即

在上述公式中,因为X已知,因此概率P(X)是一个常量,在求极值的过程中可以被忽略。因此,语音识别系统的概率模型可以被拆分为两部分:p(X|w)和p(w)。概率p(X|w)的含义是:给定单词序列w,得到特征音频信号X的概率,在语音识别系统中一般被称为声学模型。概率P(w)的含义是,给定单词序列w的概率,在语音识别系统中一般被称作语言模型。

在对音频信号做特征提取中,一般会每个10ms从一个25ms的语音信号窗口中提取一个特征向量,因此实际上输入概率模型的X是一系列特征向量的序列。常用的语音识别特征有梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、感知线性预测(Perceptual Linear Prediction,PLP)等。

对于声学特性来说,单词是一个比较大的建模单元,因此声学模型p(X|w)中的单词序列w会被进一步拆分成一个音素序列。假设Q是单词序列w对应的发音单元序列,这里简化为音素序列,那么声学模型p(X|w)可以被进一步转写为:

p

(

X

w

)

=

Q

p

(

X

Q

)

P

(

Q

w

)

p(X|w)=\sum_{Q}{p(X|Q)P(Q|w)}

p(X∣w)=Q∑​p(X∣Q)P(Q∣w)
其中,公式中的求和是对单词序列w所对应的所有可能的音素序列Q集合计算边缘分布概率。这样,声学模型就被拆分为两个部分:p(X|W)和p(Q|w)。
其中第二部分P(Q|w)是一个相对容易计算的概率分布。假设单词序列

w

=

w

1

,

.

.

.

w

L

w=w_1,…w_L

w=w1​,…wL​,即单词序列w是由

w

1

,

w

2

,

.

.

.

,

w

L

w_1,w_2,…,w_L

w1​,w2​,…,wL​共L个单词组成的,再假设每个单词

w

l

w_l

wl​所对应的可能发音是

q

w

l

q^{w_l}

qwl​,那么第二部分p(Q|w)可以进行如下拆分:

P

(

Q

w

)

=

l

=

1

L

P

(

q

w

l

w

l

)

P(Q|w)=\prod_{l=1}^{L}P(q^{w_l}|w_l)

P(Q∣w)=l=1∏L​P(qwl​∣wl​)
其中概率分布

P

(

q

w

l

READ  [Update] EXILE THE SECOND | second exile - Pickpeup

w

l

)

P(q^{w_l}|w_l)

P(qwl​∣wl​)的含义是单词

w

l

w_l

wl​的发音为

q

w

l

q^{w_l}

qwl​的概率。词典中同一个单词可能有多个发音。但是人类语言中,多音词的不同发音往往不会有很多,因此第二部分P(Q|w)可以非常容易地从发音词典中计算出来。
第一部分P(X|Q)是声学模型的核心。一般会用隐马尔可夫来进行建模。简单来说,对于音素序列Q中的每一个音素,都会构成一个音素级隐马尔可夫模型单元,根据音素序列Q,会把这些隐马尔可夫模型单元拼接成一个句子级别的隐马尔可夫模型,而特征序列X便是隐马尔可夫模型的可观察输出。
类似地,将语言模型P(w)进行拆分和建模。假设单词序列

w

=

w

1

,

.

.

.

,

w

L

w=w_1,…,w_L

w=w1​,…,wL​由L个单词组成,语言模型P(w)可以进行如下概率转换:

P

(

W

)

=

l

=

1

L

P

(

w

l

w

l

1

,

.

.

.

,

w

1

)

P(W)=\prod_{l=1}^{L}P(w_l|w_{l-1},…,w_1)

P(W)=l=1∏L​P(wl​∣wl−1​,…,w1​)
其中概率分布P(w_l|w_{l-1},…,w_1)的具体含义是:已知单词序列

w

=

w

1

,

.

.

.

,

w

l

1

w=w_1,…,w_{l-1}

w=w1​,…,wl−1​,下一个单词为

w

l

w_l

wl​的概率。在实践中,一个已经出现的单词,对于后续出现的单词的影响会随着距离的增大而越来越小,因此,一般会把单词序列的历史限制在N-1,对应的语言模型也叫做N元语法模型,用概率表示如下:

P

(

w

)

=

l

=

1

L

P

(

w

l

w

l

1

,

w

l

2

,

.

.

.

,

w

l

N

+

1

)

P(w)=\prod_{l=1}^{L}P(w_l|w_{l-1},w_{l-2},…,w_{l-N+1})

P(w)=l=1∏L​P(wl​∣wl−1​,wl−2​,…,wl−N+1​)
一般使用N=3或N=4。为了统计这个概率分布,需要收集大量的文本作为训练语料,在这些文本中统计一元词组、二元词组直到N元词组的个数,然后根据出现的个数统计每个N元词组的概率。由于训练语料往往是有限的,为了避免稀疏概率或零概率的问题,往往需要采用平滑(Smoothing)、回退(Back off)等技巧。

端到端语音识别

在大量数据的支持下,直接用神经网络可以从输入的音频或音频对应的特征直接预测出与之对应的单词,而不需要拆分成声学模型和语言模型。例如使用双向长短期记忆神经网络附之以一个CTC目标函数的模型、基于注意力(Attention)机制的端到端语音识别等。

语音识别的一些细节

语音信号处理

语音识别系统的输入是语音信号。采集语音信号的设备是麦克风,不同类型的麦克风采集到的语音信号的特性也是不同的。另外根据距离麦克风的远近,分为近场和远场,以及单声道和双声道或者是多声道。
无论是近场还是远场,驱动麦克风的音频芯片通常都要进行一系列的处理,包括采样、量化、回声消除、噪声抑制、动态增益控制和音频编解码等。其作用分别如下:

  • 采样是将空气中传播的声波信号转换为计算机可以处理的数字信号。每采样一次得到一个样点,样点之间的时间间隔就是采样周期,周期的倒数就是采样频率。例如每隔1/16000秒采样,采样频率就是16000Hz。
  • 量化的目标是高效地保存样点值。常用16比特或8比特的整型来表示一个样点,这个样点格式转换的过程就是量化。
  • 回声消除是语音交互应用,在远场语音交互中一个必不可少的模块。
  • 噪声抑制是提升语音识别性能的有效手段。常用的有频域抑制和空域抑制。空域抑制采用麦克风阵列技术,利用声源定位和波束形成(Beamforming)等算法,增强某个方向的语音信号。
  • 动态增益控制是麦克风系统中常用的模块,可有效改善由于距离等因素导致的声音忽大忽小的现象。
  • 音频编解码:经过音频编码可以降低传输成本并提升速度。

发音和语言学

音素(Phoneme):人类说话的声音大体可以分为有限的若干个基本元素。
发音词典(Pronunciation dictionary):表意单元与音素组合之间的映射。

语音识别系统的评价

常用的评价指标有词错误率(Word Error Rate, WER),中文中使用字错误率(Character Error Rate, CER)来表示。
WER的计算方法是,对于一段音频,已知其标注文本(Reference)和语音识别的结果(Hypothesis),将识别结果中错误此的累计个数除以标注中的总的词数,结果表示为一个百分数,其中错误词分为三种定义:插入(Insertion)错误、删除(Deletion)错误、替换(Substitute)错误。
除此之外,还可以采用正确率(Acc),使用累计所有测试句子的正确识别词数和全部标注文本词数,可得Acc。
在实际中,往往是多种错误类型并存在一个句子中,因此上面的正确率和错误率之和并不一定等于1,而且错误率可能超过100%。
另外,识别的速度实际中另一个需要关注的指标。评价识别速度最常用的方法是实时率(Real Time Factor,RTF),即用识别耗时除以句子时长。

参考资料:

  1. Kaldi语音识别实战
  2. 西北工业大学谢磊教授PPT课件


A.I 人工智慧- 語音識別 – Speech Recognition – 課程 02- Building A KNN Audio Classification – 建立一個 KNN 語音分類器


A.I 人工智慧 語音識別 Speech Recognition 課程 02 Speech Recognition Building A KNN Audio Classification 語音識別 建立一個 KNN 語音分類器
A.I Tutorials 語音識別 Speech Recognition 課程 02 Speech Recognition Building A KNN Audio Classification 語音識別 建立一個 KNN 語音分類器
課程內容及程式代碼分享:
下載網站:https://bit.ly/2Pbl04m
https://interactiveuandmetutorials.weebly.com/

請加入,
課程分享臉書臉粉絲專頁 \”你我學習互動園地\”
https://fb.me/interactiveuandmetutorials
請訂閱我的頻道 及 推薦 及 分享給好友 ! 萬分感謝!

นอกจากการดูบทความนี้แล้ว คุณยังสามารถดูข้อมูลที่เป็นประโยชน์อื่นๆ อีกมากมายที่เราให้ไว้ที่นี่: ดูเพิ่มเติม

A.I 人工智慧- 語音識別 - Speech Recognition - 課程 02- Building A KNN Audio Classification - 建立一個 KNN 語音分類器

语音识别是什么原理?为啥知道我们说的是什么?


Z:让你效率提升1400%!!!
B:噢,先帮我求个和。
Z:(○´・д・)ノ(○´・д・)ノ
L:xu!xu!xu!
捐赠:https://www.kenzhishi.com/support
也欢迎大家访问我的网站:https://www.kenzhishi.com

READ  [Update] Visite Sagrada Familia : Tickets, Conseils et Plus | la sagrada familia - Pickpeup

语音识别是什么原理?为啥知道我们说的是什么?

速记员 vs AI语音识别师:你需要3小时记录的会议,我只需要7分钟丨Stenographer VS Speech Recognition丨当下频道DXChannel丨我们这一天 This Is Us


大家熟悉速记员这个职业吗,你印象里的速记员是什么样子的呢?这一集的THIS IS US,我们找到了两位工作都是记录声音的主人公。一个是人工速录声音,而另一个是操纵电脑识别声音,他们之间是取代和被取代的二元对立关系吗?
看完这期节目之后,你是否对速记员这个职业有了新的看法?你又是如何看待这两种职业呢?你在工作中有没有遇到过担心被科技取代的瞬间呢?欢迎在弹幕和评论区告诉我们。
Are you familiar with the profession of stenographer? What does your impression of stenographer? In this episode of THIS IS US, we found two protagonists who both work as recording voices. One is manual shorthand recording voices, and the other is using computers to recognize voices. Is there a mutually substitutes relationship between them?
After watching this episode, do you have a new perspective on the profession of stenographer? What is your viewpoint for these two professions? Have you ever encountered a moment of worry about being replaced by technology in your work? Welcome to tell us in the comment area.
▷▷▷▷▷▷▷▷▷▷▷▷▷▷▷
hello! 这里是当下频道。
在这里,我们浸润式体验、观察、和解读当代中国青年人的消费现象,并希望以此启发不同青年圈层的好奇心、感知力和同理心。
欢迎订阅我的频道哦【当下频道】https://is.gd/wEsD8a
🔔开启小铃铛获取我们的最新更新吧🔔
Hi Welcome to DxChannel!
Mini doc explainers made by, for and about Chinese Gen Z.
👉Click here to subscribe: https://is.gd/wEsD8a
🔔Open this little bell can get our newest update🔔
更多精彩视频请看 (More Videos):
【当下新消费】NEW CONSUMERISM https://is.gd/G0EXGX
【我们这一天】This Is Us https://is.gd/EhbpRX
【当下乱码】DECODE https://is.gd/nzPH6H
【当下小白鼠】DX Try https://is.gd/vVzIwx
【当下VLOG】Our Behind The Scenes and Bonus Footages! https://is.gd/f28vL6
【当下频道特别企划】Special Episode of DXChannel https://is.gd/iPd6l2
当下频道 我们这一天 速记 语音识别

READ  [Update] Victor Archilla's Lab | daniel archilla - Pickpeup

速记员 vs AI语音识别师:你需要3小时记录的会议,我只需要7分钟丨Stenographer VS Speech Recognition丨当下频道DXChannel丨我们这一天 This Is Us

机器学习课程 51 大词汇量连续语音识别介绍


浙江大学 研究生 机器学习课程

机器学习课程 51 大词汇量连续语音识别介绍

Lời Nói là con dao hai lưỡi, chấp thì khổ, mặc kệ thì đời an vui – Phật Tại Tâm


Lời Nói là con dao hai lưỡi, chấp thì khổ, mặc kệ thì đời an vui Phật Tại Tâm
Kênh Phật Tại Tâm :chúc các bạn có 1 ngày thật thư giản, và luôn an lành trong cuộc sống.\r
\r
Hãy LIKE và Đăng Ký Để Theo Dõi ViDeo Mới Nhất Từ Kênh Phật tại Tâm Nhé!

Lời Nói là con dao hai lưỡi, chấp thì khổ, mặc kệ thì đời an vui - Phật Tại Tâm

นอกจากการดูบทความนี้แล้ว คุณยังสามารถดูข้อมูลที่เป็นประโยชน์อื่นๆ อีกมากมายที่เราให้ไว้ที่นี่: ดูวิธีอื่นๆMusic of Turkey

ขอบคุณมากสำหรับการดูหัวข้อโพสต์ 语音识别

Leave a Comment