[發明專利]文本處理方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010066891.6 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN111274358A | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 陳誠 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 劉暉銘;張穎玲 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 電子設備 存儲 介質 | ||
本發明提供了一種文本處理方法、裝置、電子設備及存儲介質;方法包括:對待處理文本進行分詞處理,將分詞處理得到的詞組成詞序列;對所述詞序列進行依存句法處理,得到所述詞序列中的詞之間的詞依存關系;將所述詞序列中的詞映射為節點,并將所述詞依存關系映射為對應節點之間的邊,以得到由所述節點和所述邊連接而構成的候選關鍵詞圖;根據所述候選關鍵詞圖中的邊,傳播所述候選關鍵詞圖中節點的節點權重;將傳播后的所述候選關鍵詞圖中滿足權重條件的節點,確定為目標節點,并將所述目標節點對應的詞,確定為所述待處理文本的關鍵詞。通過本發明,能夠提升確定出的關鍵詞的準確性,即提升自然語言處理的處理精度。
技術領域
本發明涉及數據處理技術,尤其涉及一種文本處理方法、裝置、電子設備及存儲介質。
背景技術
人工智能(AI,Artificial Intelligence)是利用數字計算機或者數字計算機控制的機器模擬、延伸和擴展人的智能,感知環境、獲取知識并使用知識獲得最佳結果的理論、方法和技術及應用系統。自然語言處理(NLP,Nature Language Processing)是人工智能中的一個重要方向,主要研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。
關鍵詞確定是自然語言處理中的一個重要應用,得到的關鍵詞可用于文本分類等場景。在相關技術提供的方案中,通常是通過無監督學習,來確定文本中的關鍵詞,具體通過滑動窗口的方式,確定文本中的詞之間的共現關系,從而確定出較為重要的關鍵詞。但是,文本的句法結構可能較為復雜,導致通過滑動窗口的方式并不能有效體現文本中的詞之間的關系,確定關鍵詞的準確性低。
發明內容
本發明實施例提供一種文本處理方法、裝置、電子設備及存儲介質,能夠提升確定出的關鍵詞的準確性,并提升根據關鍵詞進行對文本的相關處理的準確性。
本發明實施例的技術方案是這樣實現的:
本發明實施例提供一種文本處理方法,包括:
對待處理文本進行分詞處理,將分詞處理得到的詞組成詞序列;
對所述詞序列進行依存句法處理,得到所述詞序列中的詞之間的詞依存關系;
將所述詞序列中的詞映射為節點,并將所述詞依存關系映射為對應節點之間的邊,以得到由所述節點和所述邊連接而構成的候選關鍵詞圖;
根據所述候選關鍵詞圖中的邊,傳播所述候選關鍵詞圖中節點的節點權重;
將傳播后的所述候選關鍵詞圖中滿足權重條件的節點,確定為目標節點,并
將所述目標節點對應的詞,確定為所述待處理文本的關鍵詞。
本發明實施例提供一種文本處理裝置,包括:
分詞模塊,用于對待處理文本進行分詞處理,將分詞處理得到的詞組成詞序列;
句法處理模塊,用于對所述詞序列進行依存句法處理,得到所述詞序列中的詞之間的詞依存關系;
映射模塊,用于將所述詞序列中的詞映射為節點,并將所述詞依存關系映射為對應節點之間的邊,以得到由所述節點和所述邊連接而構成的候選關鍵詞圖;
傳播模塊,用于根據所述候選關鍵詞圖中的邊,傳播所述候選關鍵詞圖中節點的節點權重;
關鍵詞確定模塊,用于將傳播后的所述候選關鍵詞圖中滿足權重條件的節點,確定為目標節點,并
將所述目標節點對應的詞,確定為所述待處理文本的關鍵詞。
本發明實施例提供一種電子設備,包括:
存儲器,用于存儲可執行指令;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010066891.6/2.html,轉載請聲明來源鉆瓜專利網。





