[發明專利]關鍵短語提取方法及裝置在審
| 申請號: | 201611154611.7 | 申請日: | 2016-12-14 |
| 公開(公告)號: | CN108228556A | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 陳萬禮 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 韓建偉;張永明 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 候選短語 關鍵短語 短語詞典 獲取目標 目標文本 語料 文本 | ||
本發明公開了一種關鍵短語提取方法及裝置。其中,該方法包括:獲取目標文本;從目標文本中提取若干個候選短語,其中,每個候選短語至少包括一個左邊詞和一個右邊詞,在同一個候選短語中,左邊詞位于右邊詞的左側,右邊詞位于左邊詞的右側;根據每個候選短語中左邊詞和右邊詞的相互關系,從若干個候選短語中提取出一個或者多個含有關鍵詞的候選短語作為關鍵短語。本發明解決了相關技術中需要依賴短語詞典或者大批量語料才能提取出關鍵短語的技術問題。
技術領域
本發明涉及計算機領域,具體而言,涉及一種關鍵短語提取方法及裝置。
背景技術
目前,現有的關鍵短語提取方法主要包括如下幾種:1、TF-IDF方法:通過計算各詞語的TF-IDF值,選取出TF-IDF值較高的詞語作為關鍵詞;2、Text Rank方法:利用Text Rank算法對候選詞進行圖排序,選取排序前n位的詞語作為關鍵詞;3、KEA方法:將關鍵詞提取看作對于單個詞語的分類問題,選取TF-IDF值、首現位置、短語長度、相關結點數等作為特征,利用貝葉斯模型學習標注好的訓練數據,并預測一個詞語(或短語詞典中存在的詞組)是否為關鍵詞或關鍵短語;4、頻繁項挖掘方法:在大批的文本中(大于等于100),通過共現統計,選取共現次數較高的詞組作為關鍵短語。
其中,TF-IDF和Text Rank方法只能抽取單個詞作為關鍵詞,而單個詞涵蓋的信息比較貧乏,不利于充分理解文章大意;KEA方法由于采用了有監督的關鍵短語識別方法,需要大量人工標注好的語料作為訓練數據,耗費人力,并且短語詞典對于新數據的適應性較差;頻繁項挖掘方法依賴大規模的文本數據,不適用于單篇文本關鍵短語的提取。綜上所述,現有的關鍵短語提取技術要么只能抽取單個詞,要么需要依賴短語詞典或者大批量的語料才能提取出關鍵短語。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種關鍵短語提取方法及裝置,以至少解決相關技術中需要依賴短語詞典或者大批量語料才能提取出關鍵短語的技術問題。
根據本發明實施例的一個方面,提供了一種關鍵短語提取方法,包括:獲取目標文本;從上述目標文本中提取若干個候選短語,其中,每個候選短語至少包括一個左邊詞和一個右邊詞,在同一個候選短語中,左邊詞位于右邊詞的左側,右邊詞位于左邊詞的右側;根據每個候選短語中左邊詞和右邊詞的相互關系,從上述若干個候選短語中提取出一個或者多個含有關鍵詞的候選短語作為關鍵短語。
進一步地,每個候選短語中左邊詞和右邊詞的相互關系包括以下至少之一:每個候選短語中左邊詞和右邊詞之間的互信息,每個候選短語中左邊詞的右熵,每個候選短語中右邊詞的左熵。
進一步地,根據每個候選短語中左邊詞和右邊詞的相互關系,從上述若干個候選短語中提取出一個或者多個含有關鍵詞的候選短語作為關鍵短語包括:
獲取每個候選短語中左邊詞和右邊詞之間的互信息的值;和/或獲取每個候選短語中左邊詞的右熵的值;和/或獲取每個候選短語中右邊詞的左熵的值;根據上述互信息的值、上述左邊詞的右熵的值以及上述右邊詞的左熵的值中的至少一項確定每個候選短語的綜合值;根據每個候選短語的綜合值,從上述若干個候選短語中選出滿足第一預設條件的候選短語;從選出的滿足上述第一預設條件的候選短語中進一步提取出含有關鍵詞的候選短語作為關鍵短語。
進一步地,從選出的滿足上述第一預設條件的候選短語中進一步提取出含有關鍵詞的候選短語作為關鍵短語包括:判斷選出的滿足上述第一預設條件的候選短語中的每一個是否包含至少一個上述關鍵詞;若是,則將選出的滿足上述第一預設條件的候選短語中包含了至少一個上述關鍵詞的候選短語作為關鍵短語。
進一步地,在根據每個候選短語中左邊詞和右邊詞的相互關系,從上述若干個候選短語中提取出一個或者多個含有關鍵詞的候選短語作為關鍵短語之前,上述方法還包括:預先從上述目標文本中提取一個或者多個關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611154611.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于欄目主題的文章處理方法和裝置
- 下一篇:一種序列標注的方法及裝置





