[發明專利]種子關鍵字字典建立方法和裝置及關鍵詞提取方法和裝置在審
| 申請號: | 201510876203.1 | 申請日: | 2015-12-03 |
| 公開(公告)號: | CN105528404A | 公開(公告)日: | 2016-04-27 |
| 發明(設計)人: | 李強;劉鵬 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 胡彬;孟金喆 |
| 地址: | 100044 北京市海淀區西小口*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 種子 關鍵字 字典 建立 方法 裝置 關鍵詞 提取 | ||
技術領域
本發明實施例涉及自然語言處理技術領域,尤其涉及一種領域內的種子關 鍵字字典的建立方法和裝置及關鍵詞的提取方法和裝置。
背景技術
目前新聞文本或論文一般都有作者自行確定的關鍵詞。其他的各類文章還 很少提供關鍵詞,通常需要在編輯整理時手工抽取。手工抽取關鍵詞不僅費時費 力,而且主觀性強,抽取不當往往會對下一步的應用造成消極影響,因此設定領域 的文本的關鍵詞的自動提取技術應用而生。
國外對于關鍵詞自動提取的研究較早,已經建立了一些實驗系統。Turney設 計的GenEx系統將遺傳算法和C415決策樹機器學習方法用于關鍵詞的提取; Witten采用樸素貝葉斯技術對短語離散的特征值進行訓練,獲取模型的權值,然后 從文檔中提取關鍵詞。
中文文本沒有顯式的詞邊界使得關鍵詞的自動提取增加了一定難度,主要有 兩種技術實現設定領域的中文文本的關鍵詞的提取。
一種是基于PAT樹結構獲取候選關鍵詞,并采用互信息等統計方法進行關鍵 詞提取,存在的缺陷在于:建立獲取候選關鍵詞的PAT樹需要大量的存儲空間, 實現復雜。
另一種是利用最大熵模型進行關鍵詞自動標引的方法,由于特征的選擇以及 估計特征參數時不夠準確,最大熵模型在關鍵詞標引中的應用并不理想。
發明內容
本發明實施例提供一種領域內的種子關鍵字字典的建立方法和裝置及關鍵 詞的提取方法和裝置,以降低在設定領域的中文文本中實現關鍵詞的自動提取 的難度,并達到較高的提取準確率。
第一方面,本發明實施例提供了一種領域內的種子關鍵字字典的建立方法, 包括:
獲取設定領域的實驗文本集;
統計所述實驗文本集包含的漢字的出現頻次N;
根據所述實驗文本集包含的漢字的出現頻次N,以及預先配置的通用關鍵 字字典中對應漢字的權重w,確定所述實驗文本集包含的漢字在該領域中的權 重W;
按照所述實驗文本集包含的漢字在該領域中的權重W從高到低的順序,選 取排序優先的設定數量的漢字,作為該領域的種子關鍵字,并將對應的在該領 域中的權重W進行關聯存儲,形成該領域內的種子關鍵字字典。
第二方面,本發明實施例提供了一種領域內的種子關鍵字字典的建立裝置, 包括:
實驗文本集獲取模塊,用于獲取設定領域的實驗文本集;
統計模塊,用于統計所述實驗文本集包含的漢字的出現頻次N;
權重確定模塊,用于根據所述實驗文本集包含的漢字的出現頻次N,以及 預先配置的通用關鍵字字典中對應漢字的權重w,確定所述實驗文本集包含的 漢字在該領域中的權重W;
字典建立模塊,用于按照所述實驗文本集包含的漢字在該領域中的權重W 從高到低的順序,選取排序優先的設定數量的漢字,作為該領域的種子關鍵字, 并將對應的在該領域中的權重W進行關聯存儲,形成該領域內的種子關鍵字字 典。
第三方面,本發明實施例提供了一種關鍵詞的提取方法,基于本發明實施 例提供的領域內的種子關鍵字字典的建立方法所建立的領域內的種子關鍵字字 典實現,包括:
獲取設定領域的文本;
對所述文本進行分割,得到所述文本包含的單句;
利用預先建立的該領域內的種子關鍵字字典,定位各單句所出現的該領域 的種子關鍵字;
對于出現該領域的種子關鍵字的各單句,以所出現的該領域的種子關鍵字 為中心,基于預設的種子擴散策略,確定該單句中的候選關鍵詞;
采用最長詞匯匹配原則,對各單句中的候選關鍵詞進行篩選,得到所獲取 的文本的關鍵詞。
第四方面,本發明實施例提供了一種關鍵詞的提取裝置,基于本發明實施 例提供的領域內的種子關鍵字字典的建立裝置所建立的領域內的種子關鍵字字 典實現,包括:
文本獲取模塊,用于獲取設定領域的文本;
文本分割模塊,用于對所述文本進行分割,得到所述文本包含的單句;
定位模塊,用于利用預先建立的該領域內的種子關鍵字字典,定位各單句 所出現的該領域的種子關鍵字;
候選關鍵詞確定模塊,用于對于出現該領域的種子關鍵字的各單句,以所 出現的該領域的種子關鍵字為中心,基于預設的種子擴散策略,確定該單句中 的候選關鍵詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510876203.1/2.html,轉載請聲明來源鉆瓜專利網。





