[發明專利]一種自動化選擇合適關鍵詞組合抽取文本的方法在審
| 申請號: | 202210100206.6 | 申請日: | 2022-01-27 |
| 公開(公告)號: | CN114492433A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 王棟平;李顏戎;楊學鑫;劉秀美;周晶;錢柏丞 | 申請(專利權)人: | 南京烽火星空通信發展有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 陸志斌 |
| 地址: | 210019 江蘇省南京市建*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動化 選擇 合適 關鍵詞 組合 抽取 文本 方法 | ||
本發明公開了一種自動化選擇合適關鍵詞組合抽取文本的方法,包括如下步驟:S1、對原始文本進行數據預處理,得到高質量的切詞結果,所述數據預處理包括發現固定搭配短語和對原始文本進行切詞以及過濾停用詞;S2、選取候選關鍵詞;S3、推薦關鍵詞組合,基于原始文本中每條數據所包含的候選關鍵詞,生成無序和有序的共現詞組合集合,并以F1?score作為評價指標,從無序和有序的共現詞組合集合中推薦出用于搜索目標文本的合適的關鍵詞組合。本發明通過使用機器來代替人工對用于搜索目標文本的關鍵詞組合進行選擇,有效降低了該項任務所需耗費的人力成本和時間成本,并可使選出的關鍵詞組合結果具有質量更優、內容更完整的特點。
技術領域
本發明涉及人工智能領域中的自然語言處理技術,具體為一種自動化選擇合適關鍵詞組合抽取文本的方法。
背景技術
使用關鍵詞及關鍵詞組合搜索內容是一種常見的文本搜索方法。該方法的優點是搜索效率高,可以快速為用戶提供搜索結果,但也對用戶所選用的關鍵詞及關鍵詞組合有較高要求。能否找到合適的關鍵詞及關鍵詞組合進行文本搜索成了是否能抽出令用戶滿意的目標文本的關鍵所在。當所選擇的關鍵詞及詞組質量較差時,搜索結果中將存在大量雜質,用戶想得到目標文本還需對搜索結果進行進一步過濾,從而增大了用戶的工作量。
目前,選擇用于搜索文本的合適關鍵詞及關鍵詞組合主要依靠人工總結,然而,在一些任務中,文本數據量較大,所包含信息紛亂復雜。從中總結出能盡可能多地規避雜質,同時又能盡可能多的保留目標文本的關鍵詞組合較為困難,需要耗費大量時間。并且,該勞動成果不可復用,在新的文本搜索任務中,又需要基于新的搜索目標重新總結關鍵詞及關鍵詞組合。因此,發明一種自動化選擇用于搜索文本的合適關鍵詞組合的方法,將能大大減少此類工作的人力投入和時間成本。
發明內容
為了解決上述技術問題,本發明提供了如下的技術方案:
本發明一種自動化選擇合適關鍵詞組合抽取文本的方法,包括如下步驟:
S1、對原始文本進行數據預處理,得到高質量的切詞結果,所述數據預處理包括發現固定搭配短語和對原始文本進行切詞以及過濾停用詞;
S2、選取候選關鍵詞,從S1中的切詞結果中,選擇出主題特征性較強的詞作為候選關鍵詞,具體步驟如下:
S2.1、使用TF-IDF算法,為原始文本中的每條數據所包含的詞賦予基于其統計信息所計算得的權重;
S2.2、基于原始文本訓練LDA模型,使用訓練好的LDA模型,計算原始文本中的每條數據所包含的詞的主題突出度;
S2.3、將各詞基于TF-IDF算法計算得到的權重和基于訓練好的LDA模型計算得的主題突出度相加,得到二者之和,再考慮各詞詞性對二者之和進行修正,得到各詞的最終權重;
S2.4、將原始文本中每條數據所包含的詞依照其權重從高到低排序,設置權重的最小閾值,并將權重大于所設閾值的詞作為候選關鍵詞;
S3、推薦關鍵詞組合,基于原始文本中每條數據所包含的候選關鍵詞,生成無序和有序的共現詞組合集合,并以F1-score作為評價指標,從無序和有序的共現詞組合集合中推薦出用于搜索目標文本的合適的關鍵詞組合。
作為本發明的一種優選技術方案,S1中的發現固定搭配短語具體步驟如下:
S1.1、基于原始文本生成所有N元詞串,計算各N元詞串的左右熵和互信息,設置好左右熵和互信息的最小閾值,將左右熵和互信息的值均大于所設閾值的N元詞串作為候選固定搭配短語;
S1.2、對候選固定搭配短語去重,當兩個候選固定搭配短語屬于包含關系時,保留長度較長的候選固定搭配短語,而刪掉長度較短的;
S1.3、基于詞性對候選固定搭配短語進行進一步過濾。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京烽火星空通信發展有限公司,未經南京烽火星空通信發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210100206.6/2.html,轉載請聲明來源鉆瓜專利網。





