国产香蕉精品,亚洲欧洲精品一区,丝袜美腿一区二区三区

主頁 > 知識庫 > python實現CTC以及案例講解

python實現CTC以及案例講解

在大多數語音識別任務中，我們都缺少文本和音頻特征的alignment，Connectionist Temporal Classification作為一個損失函數，用于在序列數據上進行監督式學習，可以不需要對齊輸入數據及標簽。

對于輸入序列 X = [ x 1 , x 2 , . . , x T ] X=[x_1, x_2, .., x_T] X=[x1,x2,..,xT] 和輸出序列 Y = [ y 1 , y 2 , . . . , y U ] Y = [y_1, y_2, ..., y_U ] Y=[y1,y2,...,yU]，我們希望訓練一個模型使條件概率 P ( Y ∣ X ) P(Y|X) P(Y∣X) 達到最大化，并且給定新的輸入序列時我們希望模型可以推測出最優的輸出序列， Y ∗ = a r g m a x Y P ( Y ∣ X ) Y^*=\underset{Y}{argmax}\space P(Y|X) Y∗=Yargmax P(Y∣X)，而CTC算法剛好可以同時做到訓練和解碼。

損失函數

語音識別任務中，大多數情況下都是輸入序列長度大于文本序列長度，所以CTC算法的alignment方案也是基于將連續的幾幀輸入合并對應到某一個輸出的token，即多對一，同時除了訓練數據中所有的token集合，CTC還引入了一個空白token，在這里用 ϵ \epsilon ϵ 指代，他沒有實際意義并且在最終輸出序列中被移除，但這個token對生成alignment很有幫助。

CTC算法生成最終token輸出序列步驟如下：
生成和輸入序列長度相同的alignment → 合并相同token → 刪除空白token → token序列

上面步驟準確來講是解碼的步驟，解碼之前我們要訓練模型，訓練模型就需要損失函數，或者說需要一個被優化的目標函數：

以下圖的普通RNN為例， p t ( a t ∣ X ) p_t(a_t|X) pt(at∣X) 是每一幀在token集合（含空白token）上的概率分布

通過每一幀的概率分布我們可以得到所有（有效）alignment的概率，最后所有alignment都可以對應到一個輸出序列，進而也就得到所有輸出序列的概率分布。我們找到所有能夠合并到 label （Y）序列的 alignment，并將他們的概率分數相加，再取負對數就可以得到一對訓練數據的Loss。

那么對于整個數據集，可以得到目標函數 ∑ ( X , Y ) ∈ 訓練數據集 − l o g P ( Y ∣ X ) \sum_{(X,Y)\in 訓練數據集}-log\space P(Y|X) ∑(X,Y)∈訓練數據集−log P(Y∣X)，訓練中需要將其最小化。

用暴力的方法找出所有alignment并對其概率求和效率很低，常用的算法是通過動態規劃對alignment進行合并，準確來講是一個動態規劃+DFS的算法：

為了實現這個算法，先引入一個中間序列 Z = ( ϵ , y 1 , ϵ , y 2 . . . , ϵ , y U ) Z=(\epsilon,y_1,\epsilon,y_2...,\epsilon,y_U) Z=(ϵ,y1,ϵ,y2...,ϵ,yU)，也就是在label序列的起始，中間和終止位置插入空白token，引入這個中間序列可以說是CTC算法的精髓之一，下面我們以簡單的 Y = ( a , b ) Y=(a,b) Y=(a,b) 輸出序列進行說明：

中間序列 Z = ( ϵ , a , ϵ , b , ϵ ) Z=(\epsilon,a,\epsilon,b,\epsilon) Z=(ϵ,a,ϵ,b,ϵ)，長度為 S S S

輸入序列 X = ( x 1 , x 2 , x 3 , x 4 , x 5 , x 6 ) X=(x_1, x_2, x_3, x_4,x_5,x_6) X=(x1,x2,x3,x4,x5,x6)，長度為 T T T

遞歸參數 α s , t \alpha_{s,t} αs,t 到 t t t 時刻為止中間序列的子序列 Z 1 : s Z_{1:s} Z1:s獲得的概率分數，也就是在 t t t時刻走到中間序列第 s s s個token時的概率分數

算法整體流程如下圖所示，和原文中的圖比起來加入了具體數值，理解起來更加直觀，圖中的紅色路徑表示不能進行跳轉，因為如果直接從 t = 2 t=2 t=2 的第一個 ϵ \epsilon ϵ 跳到 t = 3 t=3 t=3 時刻的第3個 ϵ \epsilon ϵ，中間的token a a a 會被忽略，這樣后面的路徑不管怎么走都得不到正確的token序列。

其他情況下都可以接受來自上一個時刻的第 s − 2 , s − 1 , s s-2,s-1,s s−2,s−1,s個token的跳轉，再對圖中的節點做進一步解釋，以綠色節點為例，該節點就是 α 4 , 4 \alpha_{4,4} α4,4 （下標從1開始），表示前面不管怎么走，在 t = 4 t=4 t=4時刻落到第4個token時獲得的概率分數，也就是把這個時刻能走到 b b b 的所有alignment 概率分數加起來。那么把最后一幀的2個節點的概率分數相加就是所有alignment的概率分數，即 P ( Y ∣ X ) = α S , T + α S − 1 , T P(Y|X)=\alpha_{S,T}+\alpha_{S-1, T} P(Y∣X)=αS,T+αS−1,T

下面直接給出dp的狀態轉換公式， p t ( z s ∣ X ) p_t(z_s|X) pt(zs∣X) 表示 t t t 時刻第 s s s 個字符的概率：

α s , t = ( α s , t − 1 + α s − 1 , t − 1 ) × p t ( z s ∣ X ) \alpha_{s,t}=(\alpha_{s,t-1}+\alpha_{s-1, t-1})\times p_t(z_s|X) αs,t=(αs,t−1+αs−1,t−1)×pt(zs∣X)， ( a , ϵ , a ) (a,\epsilon, a) (a,ϵ,a)或者 ( ϵ , a , ϵ ) (\epsilon,a,\epsilon) (ϵ,a,ϵ) 模式

α s , t = ( α s − 2 , t − 1 + α s − 1 , t − 1 + α s , t − 1 ) × p t ( z s ∣ X ) \alpha_{s,t}=(\alpha_{s-2,t-1}+\alpha_{s-1,t-1}+\alpha_{s,t-1})\times p_t(z_s|X) αs,t=(αs−2,t−1+αs−1,t−1+αs,t−1)×pt(zs∣X)，其他情況

解碼

解碼問題就是已經有訓練好的模型，需要通過輸入序列推測出最優的token序列，實際上就是解決 Y ∗ = a r g m a x Y P ( Y ∣ X ) Y^*=\underset{Y}{argmax}\space P(Y|X) Y∗=Yargmax P(Y∣X) 這個問題，那么能想到最直接的方法就是取每一幀概率分數最高的token，連接起來去掉 ϵ \epsilon ϵ 組成輸出序列，也就是貪婪解碼：

這樣做雖然很高效但有時并不是最優解，比如幾個概率分數較小的alignment序列最后都能轉換為相同的token序列，那么將這些較小的alignment概率分數加起來可能會大于貪婪解碼的概率分數。

常用的算法是改進版的beam search，常規的beam search是在每一幀都會保存概率分數最大的前幾個路徑并舍棄其他的，最后會給出最優的 b e a m beam beam 個路徑，在此基礎上，我們在路徑搜索的過程中，需要對能映射到相同輸出的alignment進行合并，合并之后再進行beam的枝剪。

和語言模型結合

CTC最明顯的特點就是前后幀之間的條件獨立假設

缺點：不適合包括語音識別在內的大多數seq2seq任務，上下文之間的相關性會被忽略，因此經常需要額外引入語言模型。

優點：不考慮上下文的相關性可以使模型泛化能力更強，比如如果不考慮文本之間的相關性，用于識別日常會話的聲學模型可以直接用在會議內容轉錄的場景中。

由于語言模型分數和CTC的條件概率分數相互獨立，因此最終的解碼序列可以寫成
Y ∗ = a r g m a x Y P ( Y ∣ X ) × P ( Y ) α Y^*=\underset{Y}{argmax} \space P(Y|X)\times P(Y)^\alpha Y∗=Yargmax P(Y∣X)×P(Y)α， P ( Y ) P(Y) P(Y)表示語言模型的概率分數，可以是bigram也可以是3gram，以bigram為例的話，如果當前時刻序列是 ( a , b , c ) (a,b,c) (a,b,c)，計算下一幀跳到 d d d 的概率分數時，不僅要考慮下一時刻的token概率分布，還要考慮訓練文本中 ( c , d ) (c,d) (c,d) 出現的頻次，即 c o u n t ( c , d ) / c o u n t ( c , ∗ ) count(c,d) / count(c,*) count(c,d)/count(c,∗)，將這個概率和 d d d出現的概率相乘才是最終的概率分數， α \alpha α 是語言模型因子，需要fine tuning。

代碼實現

損失函數（動態規劃+DFS）
常規beam search解碼
合并alignment的beam search解碼
加入語言模型的 beam search解碼

到此這篇關于python實現CTC以及案例講解的文章就介紹到這了,更多相關python實現CTC內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: