[發明專利]一種無效上位詞的過濾方法、裝置及存儲介質有效

申請號：	201810043574.5	申請日：	2018-01-17
公開（公告）號：	CN108304501B	公開（公告）日：	2020-09-04
發明（設計）人：	鄭孫聰;李瀟	申請（專利權）人：	騰訊科技（深圳）有限公司
主分類號：	G06F16/9535	分類號：	G06F16/9535;G06F16/35;G06F40/284;G06F40/30;G06F40/289
代理公司：	深圳翼盛智成知識產權事務所(普通合伙) 44300	代理人：	黃威
地址：	518057 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種無效上位過濾方法裝置存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種無效上位詞的過濾方法，其特征在于，包括：

對待處理短文本進行分字處理，得到所述待處理短文本的第一分字處理結果；

確定上位詞分類模型；所述上位詞分類模型是根據第一訓練樣本訓練得到的，在確定所述第一訓練樣本時，包括：在預置的上位詞集合中選擇無效上位詞，設置所述選擇的無效上位詞的無效標記；確定有效上位詞的第二描述模板，所述第二描述模板與所述選擇的無效上位詞的第一描述模板具有共有信息；從所述上位詞集合中選擇與所述第二描述模板一致的有效上位詞，設置所選擇的有效上位詞的有效標記；

根據所述上位詞分類模型提取所述第一分字處理結果的語義特征，并根據所述語義特征獲取所述待處理短文本是否為無效上位詞的信息，以進行過濾處理。

2.如權利要求1所述的方法，其特征在于，所述確定上位詞分類模型，具體包括：

確定第一訓練樣本，所述第一訓練樣本中包括已標記有效的上位詞和已標記無效的上位詞，及確定上位詞分類的初始模型；

分別對所述第一訓練樣本中的各個上位詞進行分字處理，得到第二分字處理結果；

根據所述上位詞分類的初始模型，及所述第二分字處理結果，對所述第一訓練樣本中各個上位詞進行分類，得到所述各個上位詞是否無效的初始分類結果；

根據所述初始分類結果計算與所述上位詞分類的初始模型相關的損失函數的函數值；

根據所述損失函數的函數值調整所述上位詞分類的初始模型的固定參數值，以得到所述上位詞分類模型。

3.如權利要求2所述的方法，其特征在于，所述在預置的上位詞集合中選擇無效上位詞，具體包括：

在預置的上位詞集合中選擇如下至少一種類型的無效上位詞：方位詞類型，年代類型，形容詞類型和非名詞類型。

4.如權利要求3所述的方法，其特征在于，所述確定有效上位詞的第二描述模板，具體包括：

如果所述選擇的無效上位詞包括方位詞類型的無效上位詞，確定對應的第二描述模板為：以名詞結尾，且能以“在”開始或以“在”開始的短文本；

如果所述選擇的無效上位詞包括年代類型的無效上位詞，確定對應的第二描述模板為：年代與名詞的結合的短文本；