[發明專利]一種動態添加熱詞的方法、裝置及可讀存儲介質有效

申請號：	201910037030.2	申請日：	2019-01-15
公開（公告）號：	CN109885812B	公開（公告）日：	2021-02-19
發明（設計）人：	吳帥;李健;張連毅;武衛東	申請（專利權）人：	北京捷通華聲科技股份有限公司
主分類號：	G06F40/242	分類號：	G06F40/242;G06F40/157
代理公司：	北京潤澤恒知識產權代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀區東北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種動態添加方法裝置可讀存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種動態添加熱詞的方法、裝置及可讀存儲介質。所述方法包括：載入需要添加的熱詞文本數據和狀態轉移圖；根據所述狀態轉移圖的可輸出單元，對所述熱詞文本數據進行拆分，得到多個文本單元；針對所述多個文本單元中的每個文本單元，根據所述狀態轉移圖的輸出字典在所述狀態轉移圖中搜索該文本單元的對應路徑，得到多個路徑；將所述多個路徑組合成新路徑；對所述新路徑中的每條邊進行權重賦值?，F有添加熱詞的方法一種需要重新訓練語言模型完成熱詞添加，耗費時間和空間資源，另一種通過調整輸出結果來還原熱詞出現位置，添加精度不高。本發明公開的方法直接在語言模型的動態轉移圖上修改，既節省了時間和空間資源，又能保證熱詞添加精度。

技術領域

本發明涉及自然語言處理技術領域，具體地涉及一種動態添加熱詞的方法方法、裝置及可讀存儲介質。

背景技術

如今互聯網上有大量的數據需要轉化成文本，供人類存儲或閱讀，這就需要計算機解析自然語言文本。為了解析自然語言文本，我們需要經過大量的語料訓練生成語言模型，而語言模型又不方便直接調用，通常為了快速讀取語言模型，將其轉化為狀態轉移圖格式?，F代社會飛速發展，每天都新增新詞、外來語、流行語或專業術語，這些詞匯統稱為熱詞。為了保持語言模型與時俱進，因而需要不斷地添加熱詞。現有的方法通常有兩種，一種是增加熱詞相關語料，利用增加后的語料來訓練出新的語言模型，再轉化為動態轉移圖格式。另一種是在在解碼結果上做修正，根據輸出結果，通過判斷是否有熱詞誤輸出進行調整。第一種方法需要不斷訓練新的語言模型以保證熱詞的添加，耗費大量的計算時間和空間資源。第二種方法由于在文本的結果上做修改，丟失了大量的輸入信息，故而添加精度不高。

發明內容

本發明提供了一種動態添加熱詞的方法、裝置及可讀存儲介質，以實現在使用語言模型解碼的過程中快速添加熱詞的工作。

本發明實施例第一方面提供了一種動態添加熱詞的方法，所述方法包括：

載入需要添加的熱詞文本數據和狀態轉移圖；

根據所述狀態轉移圖的可輸出單元，對所述熱詞文本數據進行拆分，得到多個文本單元；

針對所述多個文本單元中的每個文本單元，根據所述狀態轉移圖的輸出字典在所述狀態轉移圖中搜索該文本單元的對應路徑，得到多個路徑；

將所述多個路徑組合成新路徑；

對所述新路徑中的每條邊的權重進行賦值。

可選的，根據所述狀態轉移圖的可輸出單元，對所述熱詞文本進行拆分，得到多個文本單元，包括：

調出所述狀態轉移圖的輸出字典；

將所述熱詞文本與所述輸出字典中的可輸出單元進行匹配；

根據匹配結果，將所述熱詞文本數據進行最小拆分，得到所述多個文本單元。