[發明專利]一種動態添加熱詞的方法、裝置及可讀存儲介質有效
| 申請號: | 201910037030.2 | 申請日: | 2019-01-15 |
| 公開(公告)號: | CN109885812B | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 吳帥;李健;張連毅;武衛東 | 申請(專利權)人: | 北京捷通華聲科技股份有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/157 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100193 北京市海淀區東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 動態 添加 方法 裝置 可讀 存儲 介質 | ||
本發明公開了一種動態添加熱詞的方法、裝置及可讀存儲介質。所述方法包括:載入需要添加的熱詞文本數據和狀態轉移圖;根據所述狀態轉移圖的可輸出單元,對所述熱詞文本數據進行拆分,得到多個文本單元;針對所述多個文本單元中的每個文本單元,根據所述狀態轉移圖的輸出字典在所述狀態轉移圖中搜索該文本單元的對應路徑,得到多個路徑;將所述多個路徑組合成新路徑;對所述新路徑中的每條邊進行權重賦值?,F有添加熱詞的方法一種需要重新訓練語言模型完成熱詞添加,耗費時間和空間資源,另一種通過調整輸出結果來還原熱詞出現位置,添加精度不高。本發明公開的方法直接在語言模型的動態轉移圖上修改,既節省了時間和空間資源,又能保證熱詞添加精度。
技術領域
本發明涉及自然語言處理技術領域,具體地涉及一種動態添加熱詞的方法方法、裝置及可讀存儲介質。
背景技術
如今互聯網上有大量的數據需要轉化成文本,供人類存儲或閱讀,這就需要計算機解析自然語言文本。為了解析自然語言文本,我們需要經過大量的語料訓練生成語言模型,而語言模型又不方便直接調用,通常為了快速讀取語言模型,將其轉化為狀態轉移圖格式?,F代社會飛速發展,每天都新增新詞、外來語、流行語或專業術語,這些詞匯統稱為熱詞。為了保持語言模型與時俱進,因而需要不斷地添加熱詞。現有的方法通常有兩種,一種是增加熱詞相關語料,利用增加后的語料來訓練出新的語言模型,再轉化為動態轉移圖格式。另一種是在在解碼結果上做修正,根據輸出結果,通過判斷是否有熱詞誤輸出進行調整。第一種方法需要不斷訓練新的語言模型以保證熱詞的添加,耗費大量的計算時間和空間資源。第二種方法由于在文本的結果上做修改,丟失了大量的輸入信息,故而添加精度不高。
發明內容
本發明提供了一種動態添加熱詞的方法、裝置及可讀存儲介質,以實現在使用語言模型解碼的過程中快速添加熱詞的工作。
本發明實施例第一方面提供了一種動態添加熱詞的方法,所述方法包括:
載入需要添加的熱詞文本數據和狀態轉移圖;
根據所述狀態轉移圖的可輸出單元,對所述熱詞文本數據進行拆分,得到多個文本單元;
針對所述多個文本單元中的每個文本單元,根據所述狀態轉移圖的輸出字典在所述狀態轉移圖中搜索該文本單元的對應路徑,得到多個路徑;
將所述多個路徑組合成新路徑;
對所述新路徑中的每條邊的權重進行賦值。
可選的,根據所述狀態轉移圖的可輸出單元,對所述熱詞文本進行拆分,得到多個文本單元,包括:
調出所述狀態轉移圖的輸出字典;
將所述熱詞文本與所述輸出字典中的可輸出單元進行匹配;
根據匹配結果,將所述熱詞文本數據進行最小拆分,得到所述多個文本單元。
可選的,針對所述多個文本單元中的每個文本單元,根據所述狀態轉移圖的輸出字典在所述狀態轉移圖中搜索該文本單元對應路徑,得到多個路徑,包括:
針對所述多個文本單元中的每個文本單元,執行以下步驟:
找到該文本單元在所述輸出字典中對應的輸出索引;
根據所述輸出索引,檢索該文本單元在所述狀態轉移圖中相應的邊和結點;
根據該文本單元的對應邊,對所述對應邊的前向進行搜索,得到該文本單元對應路徑的起始結點;
根據該文本單元的對應邊,對所述對應邊的后向進行搜索,得到該文本單元對應路徑的終止結點;
根據搜索到的該文本單元的對應邊的起始點和終止點,確定該文本單元對應的路徑。
可選的,將所述多個路徑組合成新路徑,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲科技股份有限公司,未經北京捷通華聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910037030.2/2.html,轉載請聲明來源鉆瓜專利網。





