[發明專利]領域特征關鍵詞的處理方法及相關裝置在審
| 申請號: | 201911377806.1 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN113051890A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 童陳敏 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 溫可睿 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 領域 特征 關鍵詞 處理 方法 相關 裝置 | ||
本發明提供的一種領域特征關鍵詞的處理方法及相關裝置,所述方法首先獲得本類文本語料以及對照類文本語料;所述本類文本語料為包含領域特征關鍵詞的待處理的文本語料,所述對照類文本語料為不包含領域特征關鍵詞的文本語料;然后將所述文本語料處理為長詞集,獲得所述長詞集中每一個長詞的文本特征;最終利用所述文本特征確定長詞集中的領域特征關鍵詞。由于本發明可以利用本類文本語料的文本特征綜合了多種影響領域關鍵詞準確度的因素,且對照類文本語料可以對本類文本語料中的領域關鍵詞進行篩選,因此,大大提高了提取領域特征關鍵詞的準確性,降低了后續工作的工作量。
技術領域
本發明涉及數據處理技術領域,具體而言,涉及一種領域特征關鍵詞的處理方法及相關裝置。
背景技術
通過查找文本數據中是否含有相關關鍵詞特征,來判斷該文本數據的所屬特征,是信息檢索、數據歸納分析、數據審計等領域常用方法。
表達領域特征的關鍵詞,通常為該領域特有詞匯,不同領域之間,關鍵詞應該不同。采用普通的關鍵詞提取方式無法準確提取出準確的領域特征關鍵詞,導致采用該領域特征關鍵詞進行例如信息檢索、數據歸納分析、數據審計等后續工作的工作量增多。
因此,現有技術中缺少一種可以準確提取領域特征關鍵詞的技術方案,來降低后續工作的工作量。
發明內容
鑒于上述問題,本發明提供一種克服上述問題或者至少部分地解決上述問題的一種領域特征關鍵詞的處理方法及相關裝置,以可以準確提取領域特征關鍵詞,來降低后續工作的工作量。
為了實現上述目的,本發明實施例公開的技術方案如下:
一種領域特征關鍵詞的處理方法,包括:
獲得本類文本語料以及對照類文本語料;其中,所述本類文本語料為包含領域特征關鍵詞的待處理的文本語料,所述對照類文本語料為不包含領域特征關鍵詞的文本語料;
將所述本類文本語料處理為長詞集;
獲得所述長詞集中每一個長詞的文本特征;所述文本特征表征長詞在所述本類語料以及所述對照類文本語料出現的次數、頻率和/或長度;
利用所述文本特征確定長詞集中的領域特征關鍵詞。
優選的,所述將所述本類文本語料處理為長詞集包括:
對所述本類文本語料進行分詞處理,得到文本語料關鍵詞集;
依據拼接規則將所述文本語料關鍵詞集中的詞進行拼接,得到長詞集。
優選的,所述文本特征包括:
每一個長詞在所述本類文本語料的所有文檔中表征出現次數的本類文檔篇數以及在所述對照類文本語料的所有文檔中表征出現次數的對照類文檔篇數;
每一個長詞在所述本類文本語料的各個文檔中表征出現次數最大值的本類語料詞頻以及在所述對照類文本語料的各個文檔中表征出現次數最大值的對照類語料詞頻;
和/或,
表征每一個長詞長度的詞長。
優選的,所述利用所述文本特征確定長詞集中的領域特征關鍵詞包括:
獲得所述本類文檔篇數與所述對照類文檔篇數的第一差值;
獲得所述本類語料詞頻與所述對照類語料詞頻的第二差值;
以所述第一差值、第二差值以及所述詞長作為輸入參數,調用預設的評分公式得到綜合領先分數;
依據所述綜合領先分數,確定領域特征關鍵詞。
優選的,所述依據所述綜合領先分數,確定領域特征關鍵詞包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911377806.1/2.html,轉載請聲明來源鉆瓜專利網。





