日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]關鍵短語提取方法及裝置在審

專利信息
申請號: 201611154611.7 申請日: 2016-12-14
公開(公告)號: CN108228556A 公開(公告)日: 2018-06-29
發明(設計)人: 陳萬禮 申請(專利權)人: 北京國雙科技有限公司
主分類號: G06F17/27 分類號: G06F17/27
代理公司: 北京康信知識產權代理有限責任公司 11240 代理人: 韓建偉;張永明
地址: 100086 北京市海淀區*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 候選短語 關鍵短語 短語詞典 獲取目標 目標文本 語料 文本
【說明書】:

發明公開了一種關鍵短語提取方法及裝置。其中,該方法包括:獲取目標文本;從目標文本中提取若干個候選短語,其中,每個候選短語至少包括一個左邊詞和一個右邊詞,在同一個候選短語中,左邊詞位于右邊詞的左側,右邊詞位于左邊詞的右側;根據每個候選短語中左邊詞和右邊詞的相互關系,從若干個候選短語中提取出一個或者多個含有關鍵詞的候選短語作為關鍵短語。本發明解決了相關技術中需要依賴短語詞典或者大批量語料才能提取出關鍵短語的技術問題。

技術領域

本發明涉及計算機領域,具體而言,涉及一種關鍵短語提取方法及裝置。

背景技術

目前,現有的關鍵短語提取方法主要包括如下幾種:1、TF-IDF方法:通過計算各詞語的TF-IDF值,選取出TF-IDF值較高的詞語作為關鍵詞;2、Text Rank方法:利用Text Rank算法對候選詞進行圖排序,選取排序前n位的詞語作為關鍵詞;3、KEA方法:將關鍵詞提取看作對于單個詞語的分類問題,選取TF-IDF值、首現位置、短語長度、相關結點數等作為特征,利用貝葉斯模型學習標注好的訓練數據,并預測一個詞語(或短語詞典中存在的詞組)是否為關鍵詞或關鍵短語;4、頻繁項挖掘方法:在大批的文本中(大于等于100),通過共現統計,選取共現次數較高的詞組作為關鍵短語。

其中,TF-IDF和Text Rank方法只能抽取單個詞作為關鍵詞,而單個詞涵蓋的信息比較貧乏,不利于充分理解文章大意;KEA方法由于采用了有監督的關鍵短語識別方法,需要大量人工標注好的語料作為訓練數據,耗費人力,并且短語詞典對于新數據的適應性較差;頻繁項挖掘方法依賴大規模的文本數據,不適用于單篇文本關鍵短語的提取。綜上所述,現有的關鍵短語提取技術要么只能抽取單個詞,要么需要依賴短語詞典或者大批量的語料才能提取出關鍵短語。

針對上述的問題,目前尚未提出有效的解決方案。

發明內容

本發明實施例提供了一種關鍵短語提取方法及裝置,以至少解決相關技術中需要依賴短語詞典或者大批量語料才能提取出關鍵短語的技術問題。

根據本發明實施例的一個方面,提供了一種關鍵短語提取方法,包括:獲取目標文本;從上述目標文本中提取若干個候選短語,其中,每個候選短語至少包括一個左邊詞和一個右邊詞,在同一個候選短語中,左邊詞位于右邊詞的左側,右邊詞位于左邊詞的右側;根據每個候選短語中左邊詞和右邊詞的相互關系,從上述若干個候選短語中提取出一個或者多個含有關鍵詞的候選短語作為關鍵短語。

進一步地,每個候選短語中左邊詞和右邊詞的相互關系包括以下至少之一:每個候選短語中左邊詞和右邊詞之間的互信息,每個候選短語中左邊詞的右熵,每個候選短語中右邊詞的左熵。

進一步地,根據每個候選短語中左邊詞和右邊詞的相互關系,從上述若干個候選短語中提取出一個或者多個含有關鍵詞的候選短語作為關鍵短語包括:

獲取每個候選短語中左邊詞和右邊詞之間的互信息的值;和/或獲取每個候選短語中左邊詞的右熵的值;和/或獲取每個候選短語中右邊詞的左熵的值;根據上述互信息的值、上述左邊詞的右熵的值以及上述右邊詞的左熵的值中的至少一項確定每個候選短語的綜合值;根據每個候選短語的綜合值,從上述若干個候選短語中選出滿足第一預設條件的候選短語;從選出的滿足上述第一預設條件的候選短語中進一步提取出含有關鍵詞的候選短語作為關鍵短語。

進一步地,從選出的滿足上述第一預設條件的候選短語中進一步提取出含有關鍵詞的候選短語作為關鍵短語包括:判斷選出的滿足上述第一預設條件的候選短語中的每一個是否包含至少一個上述關鍵詞;若是,則將選出的滿足上述第一預設條件的候選短語中包含了至少一個上述關鍵詞的候選短語作為關鍵短語。

進一步地,在根據每個候選短語中左邊詞和右邊詞的相互關系,從上述若干個候選短語中提取出一個或者多個含有關鍵詞的候選短語作為關鍵短語之前,上述方法還包括:預先從上述目標文本中提取一個或者多個關鍵詞。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611154611.7/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 免费观看黄色毛片| 国产在线拍偷自揄拍视频| 亚洲高清久久久| 扒丝袜网www午夜一区二区三区| 国产在线一二区| 制服丝袜亚洲一区| 97午夜视频| 午夜黄色网址| 国产日韩一二三区| 中文字幕理伦片免费看| 欧美日韩国产午夜| 国产欧美一区二区精品婷| 亚洲精品一品区二品区三品区| 亚洲一二三在线| 久久国产精品视频一区| 亚洲精品国产精品国自产网站按摩| 国产一级片一区| 久久99国产综合精品| 精品久久久综合| 国产精品久久久久四虎| 久久99国产精品视频| 午夜生活理论片| 亚洲一二三四区| 国产精品视频久久| 久久国产精品-国产精品| 亚洲精品国产一区二区三区| 久久精品国产一区二区三区不卡| 亚洲高清久久久| 欧美3级在线| 免费欧美一级视频| 国产日产精品一区二区| 91波多野结衣| 国产伦精品一区二区三区免费迷| 最新av中文字幕| 欧美xxxxhdvideos| 亚洲一区欧美| 91久久精品在线| 日韩精品久久久久久中文字幕8| 日本黄页在线观看| 国产精品久久久久久久久久久杏吧| 高清欧美xxxx| 国产区图片区一区二区三区| 精品三级一区二区| 国产精品人人爽人人做av片| 狠狠色丁香久久婷婷综合_中| 国产一区二区中文字幕| 午夜在线观看av| 国产99视频精品免视看芒果| 国产伦精品一区二区三区免费优势| 国产日韩一区二区在线| 少妇又紧又色又爽又刺激视频网站| 国产亚洲精品久久网站| 男女午夜爽爽| 91精品国模一区二区三区| 99国产午夜精品一区二区天美| 精品一区二区在线视频| 午夜av男人的天堂| 十八无遮挡| 国产白嫩美女在线观看| 国产欧美日韩二区| 午夜情所理论片| 色乱码一区二区三在线看| 国语对白一区二区三区| 欧美一区二区综合| 免费看大黄毛片全集免费| 精品国产二区三区| 国产精品久久久久久久岛一牛影视| 国产品久精国精产拍| 色综合久久综合| 中文乱码在线视频| 国产精品v亚洲精品v日韩精品| 国产不卡网站| 国产一区二区四区| 一区二区三区在线观看国产| 91精品一区二区中文字幕| 中文字幕一区二区三区不卡| 狠狠色噜噜狠狠狠狠777| 久久99久久99精品免观看软件| 免费看农村bbwbbw高潮| 国产精品偷拍| 日韩午夜毛片| 精品一区二区超碰久久久|