[發明專利]確定新詞的方法、裝置、電子設備及可讀存儲介質在審
| 申請號: | 202010525541.1 | 申請日: | 2020-06-10 |
| 公開(公告)號: | CN111680146A | 公開(公告)日: | 2020-09-18 |
| 發明(設計)人: | 劉志煌 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/279;G06N3/04;G06N3/08 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧;張海秀 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 新詞 方法 裝置 電子設備 可讀 存儲 介質 | ||
1.一種確定新詞的方法,其特征在于,包括:
獲取樣本文本集;
對所述樣本文本集進行字序列挖掘,得到對應于各長度的頻繁字序列;
確定出所述對應于各長度的頻繁字序列中的各超序列;
對于每個所述超序列,若所述超序列未包含在所述樣本文本集所包含的各分詞中,則將所述超序列確定為新詞。
2.根據權利要求1所述方法,其特征在于,所述對所述樣本文本集進行字序列挖掘,得到對應于各長度的頻繁字序列,包括:
確定所述樣本文本集中包括的每個字元素分別所對應的樣本數,對于一個字元素,該字元素所對應的樣本數是指所述樣本文本集中包含該字元素的樣本文本的數量;
基于每個字元素所對應的樣本數,對樣本文本集中包括的字元素進行過濾,得到處理后的樣本文本集;
對所述處理后的樣本文本集進行字序列挖掘,得到對應于各長度的頻繁字序列。
3.根據權利要求2所述方法,所述其特征在于,所述基于每個字元素所對應的樣本數,對樣本文本集中包括的字元素進行過濾,得到處理后的樣本文本集,包括:
對于一個字元素的樣本數,若所述樣本數滿足設定條件,則從所述樣本文本集中刪除所述字元素;
所述樣本數滿足設定條件包括以下至少一項:
樣本數小于設定值或者樣本數的占比小于預設值;
其中,所述樣本數的占比是指字元素所對應的樣本數與所述樣本文本集中包括的樣本文本的數量的比值。
4.根據權利要求1所述方法,其特征在于,所述對所述樣本文本集進行字序列挖掘,得到對應于各長度的頻繁字序列,包括:
基于前綴投影的模式挖掘PrefixSpan算法,對所述樣本文本集進行字序列挖掘,得到對應于各長度的頻繁字序列。
5.根據權利要求1所述方法,其特征在于,所述確定出所述對應于各長度的頻繁字序列中的各超序列,包括:
對各所述頻繁字序列分別進行助詞過濾,得到過濾后的各頻繁字序列;
確定出過濾后的各所述頻繁字序列中的各超序列。
6.根據權利要求1所述方法,其特征在于,所述獲取樣本文本集,包括:
獲取初始文本集,所述初始文本集中包括各初始文本;
對每個所述初始文本分別進行文字預處理,得到每個所述初始文本對應的預處理結果;
基于各所述初始文本對應的預處理結果,得到所述樣本文本集;
其中,所述文字預處理包括分句處理和特定字符刪除處理中的至少一項。
7.一種文本處理方法,其特征在于,所述方法包括:
獲取待處理文本;
基于分詞數據庫對所述待處理文本進行分詞處理,得到所述待處理文本所包括的分詞,其中,所述分詞數據庫中包含采用權利要求1至6中的所述方法確定出的新詞。
8.一種確定新詞的裝置,其特征在于,包括:
文本獲取模塊,用于獲取樣本文本集;
序列挖掘模塊,用于對所述樣本文本集進行字序列挖掘,得到對應于各長度的頻繁字序列;
超序列確定模塊,用于確定出所述對應于各長度的頻繁字序列中的各超序列;
新詞確定模塊,用于對于每個所述超序列,若所述超序列未包含在所述樣本文本集所包含的各分詞中,則將所述超序列確定為新詞。
9.一種文本處理裝置,其特征在于,包括:
文本獲取模塊,用于獲取待處理文本;
分詞處理模塊,用于基于分詞數據庫對所述待處理文本進行分詞處理,得到所述待處理文本所包括的分詞,其中,所述分詞數據庫中包含采用權利要求1至6中所述方法確定出的新詞。
10.一種電子設備,其特征在于,包括處理器以及存儲器:
所述存儲器被配置用于存儲計算機程序,所述計算機程序在由所述處理器執行時,使得所述處理器執行權利要求1-7任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010525541.1/1.html,轉載請聲明來源鉆瓜專利網。





