[發明專利]確定新詞的方法、裝置、電子設備及可讀存儲介質在審

申請號：	202010525541.1	申請日：	2020-06-10
公開（公告）號：	CN111680146A	公開（公告）日：	2020-09-18
發明（設計）人：	劉志煌	申請（專利權）人：	騰訊科技（深圳）有限公司
主分類號：	G06F16/332	分類號：	G06F16/332;G06F16/33;G06F40/279;G06N3/04;G06N3/08
代理公司：	北京市立方律師事務所 11330	代理人：	張筱寧;張海秀
地址：	518000 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	確定新詞方法裝置電子設備可讀存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例提供了一種確定新詞的方法、裝置、電子設備及可讀存儲介質。該方法包括：獲取樣本文本集；對樣本文本集進行字序列挖掘，得到對應于各長度的頻繁字序列；確定出對應于各長度的頻繁字序列中的各超序列；對于每個超序列，若超序列未包含在樣本文本集所包含的各分詞中，則將超序列確定為新詞。在本申請實施例中，采用字序列挖掘的方式能夠更好地將經常更新的字、詞或短語篩選出來，將會在分詞和新詞發現等應用中都有重要的參考價值和實踐意義；并且在確定新詞的過程中即無需訓練復雜的神經網絡模型，也不需要人工標注訓練樣本，進而有效地減少了訓練成本。

技術領域

本申請涉及數據處理技術領域，具體而言，本申請涉及一種確定新詞的方法、裝置、電子設備及可讀存儲介質。

背景技術

隨著語言的發展和互聯網用語的不斷變化衍生，新詞和新的專業用語層出不窮。對于自然語言處理的許多任務來說，分詞質量的好壞對后續任務流的準確度起著至關重要的作用，也是其他基礎工具(如句法分析、關鍵詞抽取等)任務效果的重要影響因素。而實際上，在目前的分詞工具上對于網絡新詞、人名地名、專業用語等經常存在誤拆分，即分詞的結果不準確，究其根源也是對新詞識別有誤而導致的問題。因此，如何挖掘新詞是一個需要解決的重要問題。

發明內容

本申請的目的旨在至少能解決上述的技術缺陷之一。

一方面，本申請實施例提供了一種確定新詞的方法，該方法包括：

獲取樣本文本集；

對樣本文本集進行字序列挖掘，得到對應于各長度的頻繁字序列；

確定出對應于各長度的頻繁字序列中的各超序列；

對于每個超序列，若超序列未包含在樣本文本集所包含的各分詞中，則將超序列確定為新詞。

另一方面，本申請實施例提供了一種文本處理方法，該方法包括：

獲取待處理文本；

基于分詞數據庫對待處理文本進行分詞處理，得到待處理文本所包括的分詞，分詞數據庫中包含采用第一方面中的方法確定出的新詞。

另一方面，本申請實施例提供了一種確定新詞的裝置，該裝置包括：

文本獲取模塊，用于獲取樣本文本集；