[發明專利]一種動態添加熱詞的方法、裝置及可讀存儲介質有效
| 申請號: | 201910037030.2 | 申請日: | 2019-01-15 |
| 公開(公告)號: | CN109885812B | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 吳帥;李健;張連毅;武衛東 | 申請(專利權)人: | 北京捷通華聲科技股份有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/157 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100193 北京市海淀區東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 動態 添加 方法 裝置 可讀 存儲 介質 | ||
1.一種動態添加熱詞的方法,其特征在于,包括:
載入需要添加的熱詞文本數據和狀態轉移圖;
根據所述狀態轉移圖的可輸出單元,對所述熱詞文本數據進行拆分,得到多個文本單元;
針對所述多個文本單元中的每個文本單元,根據所述狀態轉移圖的輸出字典在所述狀態轉移圖中搜索該文本單元的對應路徑,得到多個路徑;
將所述多個路徑組合成新路徑;
對所述新路徑中的每條邊的權重進行賦值,包括:
通過語言模型計算第i個文本單元概率Pi和相應熱詞概率P,所述文本單元概率Pi和相應熱詞概率P為所述每個文本單元在所有文本數據中出現的概率和相應的熱詞概率;
將所述文本單元概率Pi和所述相應熱詞概率P代入額外權重計算公式計算所述新路徑帶來的額外權重Δw;
計算所述新路徑中每條邊上原來的權重之和;
將所述權重之和與所述額外權重Δw代入權重優化方程中,不斷調整每條邊修改后的權重,使所述修改后的權重滿足所述權重優化方程。
2.如權利要求1所述的方法,其特征在于,根據所述狀態轉移圖的可輸出單元,對所述熱詞文本數據進行拆分,得到多個文本單元,包括:
調出所述狀態轉移圖的輸出字典;
將所述熱詞文本數據與所述輸出字典中的可輸出單元進行匹配;
根據匹配結果,將所述熱詞文本數據進行最小拆分,得到所述多個文本單元。
3.如權利要求1所述的方法,其特征在于,針對所述多個文本單元中的每個文本單元,根據所述狀態轉移圖的輸出字典在所述狀態轉移圖中搜索該文本單元的對應路徑,得到多個路徑,包括:
針對所述多個文本單元中的每個文本單元,執行以下步驟:
找到該文本單元在所述輸出字典中對應的輸出索引;
根據所述輸出索引,檢索該文本單元在所述狀態轉移圖中相應的邊和結點;
根據該文本單元的對應邊,對所述對應邊的前向進行搜索,得到該文本單元對應路徑的起始結點;
根據該文本單元的對應邊,對所述對應邊的后向進行搜索,得到該文本單元對應路徑的終止結點;
根據搜索到的該文本單元的對應邊的起始結點和終止結點,確定該文本單元對應的路徑。
4.如權利要求1所述的方法,其特征在于,將所述多個路徑組合成新路徑,包括:
對所述多個路徑上的結點代表的狀態做出相應調整;
將調整后的多個路徑依次連接,得到所述新路徑。
5.如權利要求1所述的方法,其特征在于,所述額外權重計算公式為:
其中,ω為概率轉化權重函數,為所述狀態轉移圖對應的“減法”規則,為多個所述文本單元概率Pi的連乘求積。
6.如權利要求1所述的方法,其特征在于,所述權重優化方程為:
其中,wi,j→i,j+1為第i個文本單元對應路徑上第j個結點到第j+1個結點上的邊的權重,w′i,j→i,j+1為第i個單元對應路徑上第j個結點到第j+1個結點上的邊上的新權重,W為原來權重的總和,W′為所述新權重的總和,mi-1為所述第i個文本單元對應路徑上的總結點數減一,minw′()表示遍歷w′的取值取括號內表達式的最小值,|| ||指范數,是一種空間上一維向量長度或大小的表示,s.t.表示滿足此約束條件。
7.如權利要求1所述的方法,其特征在于,所述方法還包括:
將所述狀態轉移圖中原有路徑上自循環邊的權重值進行哈希運算,得到所述權重值的哈希表;
查詢所述哈希表,得到所述新路徑上自循環邊的權重值;
根據所述權重值為所述新路徑添加自循環邊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲科技股份有限公司,未經北京捷通華聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910037030.2/1.html,轉載請聲明來源鉆瓜專利網。





