[發明專利]提取文本核心短語的方法和裝置在審

申請號：	201811056007.X	申請日：	2018-09-11
公開（公告）號：	CN110895655A	公開（公告）日：	2020-03-20
發明（設計）人：	李超;韓鳳嬌;金成珠;張銳	申請（專利權）人：	北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司
主分類號：	G06F40/289	分類號：	G06F40/289
代理公司：	中原信達知識產權代理有限責任公司 11219	代理人：	張一軍;李陽
地址：	100195 北京市海淀區杏石口路6***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	提取文本核心短語方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種提取文本核心短語的方法，其特征在于，包括：

將文本分成若干個第一片段，并按照所述文本的順序將第一片段組合成至少一個短語；

針對每個短語，確定其在所有短語中的出現頻率；

將出現頻率超過定位閾值且滿足詞性要求的短語，作為所述文本的核心短語。

2.根據權利要求1所述的方法，其特征在于，針對每個短語，確定其在所有短語中的出現頻率之后，還包括：

從所有短語的出現頻率中，確定最高出現頻率和最低出現頻率；

基于所述最高出現頻率的權值和所述最低出現頻率的權值，對所述最高出現頻率和最低出現頻率進行加權求和，得到所述文本的定位閾值。

3.根據權利要求1所述的方法，其特征在于，將出現頻率超過所述定位閾值且滿足詞性要求的短語，作為所述文本的核心短語，包括：

篩選出現頻率超過所述定位閾值的短語，將其作為合格短語；

對所述合格短語進行切詞處理，得到若干個第二片段；

針對每個合格短語，按照所述文本的順序將第二片段進行兩兩組合，得到至少一組片段組合；若至少一組所述片段組合滿足詞性要求，則將所述合格短語為所述文本的核心短語。

4.根據權利要求3所述的方法，其特征在于，所述詞性要求包括片段組合中的兩個第二片段的詞性滿足以下情況之一：形容詞+名詞、名詞+形容詞、名詞+副詞、形容詞+形容詞。

5.根據權利要求1所述的方法，其特征在于，所述短語的長度范圍為[3,8]。

6.根據權利要求1所述的方法，其特征在于，所述將文本分成若干個第一片段，包括：

采用基于深度學習的開源分詞工具或結巴框架，對文本進行切詞處理，得到若干個第一片段。

7.一種提取文本核心短語的裝置，其特征在于，包括：

文本分詞模塊，用于：將文本分成若干個第一片段，并按照所述文本的順序將第一片段組合成至少一個短語；確定頻率模塊，用于：針對每個短語，確定其在所有短語中的出現頻率；

提取模塊，用于：將出現頻率超過所述定位閾值且滿足詞性要求的短語，作為所述文本的核心短語。

8.根據權利要求7所述的裝置，其特征在于，所述裝置還包括確定閾值模塊，用于：

從所有短語的出現頻率中，確定最高出現頻率和最低出現頻率；

基于所述最高出現頻率的權值和所述最低出現頻率的權值，對所述最高出現頻率和最低出現頻率進行加權求和，得到所述文本的定位閾值。

9.根據權利要求7所述的裝置，其特征在于，所述提取模塊還用于：

篩選出現頻率超過所述定位閾值的短語，將其作為合格短語；

對所述合格短語進行切詞處理，得到若干個第二片段；

10.根據權利要求9所述的裝置，其特征在于，所述提取模塊還用于：

設置所述詞性要求包括：片段組合中的兩個第二片段的詞性滿足以下情況之一：形容詞+名詞、名詞+形容詞、名詞+副詞、形容詞+形容詞。

11.根據權利要求7所述的裝置，其特征在于，所述文本分詞模塊，用于：設置短語的長度范圍為[3,8]。

12.根據權利要求7所述的裝置，其特征在于，所述文本分詞模塊還用于：

采用基于深度學習的開源分詞工具或結巴框架，對文本進行切詞處理，得到若干個第一片段。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司，未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811056007.X/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種售后服務申請信息的處理方法和裝置
下一篇：一種被用于無線通信的節點中的方法和裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】