[發明專利]確定新詞的方法、裝置、電子設備及可讀存儲介質在審
| 申請號: | 202010525541.1 | 申請日: | 2020-06-10 |
| 公開(公告)號: | CN111680146A | 公開(公告)日: | 2020-09-18 |
| 發明(設計)人: | 劉志煌 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/279;G06N3/04;G06N3/08 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧;張海秀 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 新詞 方法 裝置 電子設備 可讀 存儲 介質 | ||
本申請實施例提供了一種確定新詞的方法、裝置、電子設備及可讀存儲介質。該方法包括:獲取樣本文本集;對樣本文本集進行字序列挖掘,得到對應于各長度的頻繁字序列;確定出對應于各長度的頻繁字序列中的各超序列;對于每個超序列,若超序列未包含在樣本文本集所包含的各分詞中,則將超序列確定為新詞。在本申請實施例中,采用字序列挖掘的方式能夠更好地將經常更新的字、詞或短語篩選出來,將會在分詞和新詞發現等應用中都有重要的參考價值和實踐意義;并且在確定新詞的過程中即無需訓練復雜的神經網絡模型,也不需要人工標注訓練樣本,進而有效地減少了訓練成本。
技術領域
本申請涉及數據處理技術領域,具體而言,本申請涉及一種確定新詞的方法、裝置、電子設備及可讀存儲介質。
背景技術
隨著語言的發展和互聯網用語的不斷變化衍生,新詞和新的專業用語層出不窮。對于自然語言處理的許多任務來說,分詞質量的好壞對后續任務流的準確度起著至關重要的作用,也是其他基礎工具(如句法分析、關鍵詞抽取等)任務效果的重要影響因素。而實際上,在目前的分詞工具上對于網絡新詞、人名地名、專業用語等經常存在誤拆分,即分詞的結果不準確,究其根源也是對新詞識別有誤而導致的問題。因此,如何挖掘新詞是一個需要解決的重要問題。
發明內容
本申請的目的旨在至少能解決上述的技術缺陷之一。
一方面,本申請實施例提供了一種確定新詞的方法,該方法包括:
獲取樣本文本集;
對樣本文本集進行字序列挖掘,得到對應于各長度的頻繁字序列;
確定出對應于各長度的頻繁字序列中的各超序列;
對于每個超序列,若超序列未包含在樣本文本集所包含的各分詞中,則將超序列確定為新詞。
另一方面,本申請實施例提供了一種文本處理方法,該方法包括:
獲取待處理文本;
基于分詞數據庫對待處理文本進行分詞處理,得到待處理文本所包括的分詞,分詞數據庫中包含采用第一方面中的方法確定出的新詞。
另一方面,本申請實施例提供了一種確定新詞的裝置,該裝置包括:
文本獲取模塊,用于獲取樣本文本集;
序列挖掘模塊,用于對樣本文本集進行字序列挖掘,得到對應于各長度的頻繁字序列;
超序列確定模塊,用于確定出對應于各長度的頻繁字序列中的各超序列;
新詞確定模塊,用于對于每個超序列,若超序列未包含在樣本文本集所包含的各分詞中,則將超序列確定為新詞。
另一方面方面,本申請實施例提供了一種文本處理裝置,包括:
文本獲取模塊,用于獲取待處理文本;
分詞處理模塊,用于基于分詞數據庫對待處理文本進行分詞處理,得到待處理文本所包括的分詞,分詞數據庫中包含采用第一方面中方法確定出的新詞。
再一方面,本申請實施例提供了一種電子設備,該電子設備包括處理器以及存儲器:
存儲器被配置用于存儲計算機程序,該計算機程序在由處理器執行時,使得處理器執行本申請任一方面所提供的方法。
又一方面方面,本申請實施例提供了一種計算機可讀存儲介質,該計算機可讀存儲介質中存儲有計算機程序,當該計算機程序在計算機上運行時,使得計算機可以執行本申請任一方面所提供的方法。
本申請實施例提供的技術方案帶來的有益效果是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010525541.1/2.html,轉載請聲明來源鉆瓜專利網。





