[發明專利]文本分詞、即時消息處理方法和裝置有效
| 申請號: | 201711266278.3 | 申請日: | 2017-12-05 |
| 公開(公告)號: | CN108334492B | 公開(公告)日: | 2021-11-02 |
| 發明(設計)人: | 林偉;許耀峰;朱青鎣;王銳;阮閃閃 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06N20/00;H04L12/58 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 何平;鄧云鵬 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分詞 即時消息 處理 方法 裝置 | ||
1.一種文本分詞方法,包括:
獲取待分詞的文本;
將所述文本中的字符分別轉化為相應的字向量;
在機器學習模型中,按照所述字向量相應的字符在所述文本中的順序,依次計算每個字向量所對應字符屬于預設的各詞中位置標注狀態的第一概率,按照所述字向量相應的字符在所述文本中的逆序,依次計算每個字向量所對應字符屬于預設的各詞中位置標注狀態的第二概率,根據所述第一概率和所述第二概率,獲得所述字向量所對應字符屬于預設的各詞中位置標注狀態的概率,所述詞中位置標注狀態是字符在所屬詞中的位置對應的位置標注,所述位置標注包括字符位于所屬詞的開頭、字符位于所屬詞的中間位置、字符位于所屬詞的末尾和字符單獨成詞;
根據所述概率,分別確定所述文本中各字符所屬的詞中位置標注狀態;
根據所述文本中各字符所屬的詞中位置標注狀態,確定所述各字符在所屬的詞中的位置;
在所述文本中,從在所屬的詞中的位置為詞首的字符起,到最近的在所屬的詞中的位置為詞尾的字符止,切分出詞,以及在所述文本中,將在所屬的詞中的位置為詞中獨占位置的字符切分為詞。
2.根據權利要求1所述的方法,其特征在于,所述將所述文本中的字符分別轉化為相應的字向量,包括:
獲取所述文本中每個字符相應的多維度的字符特征;所述多維度的字符特征表征相應的字符與所述文本中其余字符之間的相似度;
根據所述文本中每個字符相應的多維度的字符特征,構建所述每個字符相應的字向量。
3.根據權利要求1所述的方法,其特征在于,所述按照所述字向量相應的字符在所述文本中的順序,依次計算每個字向量所對應字符屬于預設的各詞中位置標注狀態的第一概率,包括:
按照所述字向量相應的字符在所述文本中的順序,分別將各個字向量作為所述機器學習模型的前向傳播隱藏層當前處理的字向量;
在當前處理的字向量對應所述文本中的首字符時,根據當前處理的字向量得到相應字符屬于預設的各詞中位置標注狀態的第一概率;
在當前處理的字向量未對應所述首字符時,根據當前處理的字向量及前次處理的字向量對應的第一概率,得到當前處理的字向量相應字符屬于預設的各詞中位置標注狀態的第一概率。
4.根據權利要求1所述的方法,其特征在于,所述按照所述字向量相應的字符在所述文本中的逆序,依次計算每個字向量所對應字符屬于預設的各詞中位置標注狀態的第二概率,包括:
按照所述字向量相應的字符在所述文本中的逆序,分別將各個字向量分別作為所述機器學習模型的反向傳播隱藏層當前處理的字向量;
在當前處理的字向量對應所述文本的末尾字符時,根據當前處理的字向量得到相應字符屬于預設的各詞中位置標注狀態的第二概率;
在當前處理的字向量未對應所述末尾字符時,根據當前處理的字向量及前次處理的字向量對應的第二概率,得到當前處理的字向量相應字符在各個位置狀態下的第二概率。
5.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取目標語料;
將所述目標語料中的字符分別轉換為相應的訓練字向量;
將所述訓練字向量輸入基于神經網絡的機器學習模型,獲得所述訓練字向量所對應字符屬于預設的各詞中位置標注狀態的概率;
根據所述訓練字向量所對應字符屬于預設的各詞中位置標注狀態的概率,分別確定所述目標語料中各字符所屬的詞中位置標注狀態;
按照所述目標語料中各字符所屬的詞中位置標注狀態對所述目標語料進行分詞,得到預測分詞結果;
依據所述預測分詞結果與所述目標語料的基準分詞結果之間的差異,調整所述機器學習模型的模型參數,繼續訓練直至所述差異符合預設條件。
6.根據權利要求5所述的方法,其特征在于,所述方法還包括:
通過預訓練分詞模型對所述目標語料進行分詞,得到相應的詞序列;
將所述詞序列進行校正,得到所述目標語料的基準分詞結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711266278.3/1.html,轉載請聲明來源鉆瓜專利網。





