[發明專利]用于提取文本關鍵詞的方法、裝置、電子設備和介質在審
| 申請號: | 202110718951.2 | 申請日: | 2021-06-28 |
| 公開(公告)號: | CN113434677A | 公開(公告)日: | 2021-09-24 |
| 發明(設計)人: | 肖艷清;易修文;韓博洋;張鈞波;鄭宇 | 申請(專利權)人: | 京東城市(北京)數字科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/289;G06F40/30;G06F16/387 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100086 北京市海淀區知*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 提取 文本 關鍵詞 方法 裝置 電子設備 介質 | ||
1.一種用于提取文本關鍵詞的方法,包括:
獲取預設類別事件的描述文本;
從所述描述文本中剔除目標文本,生成預處理描述文本,其中,所述目標文本包括停用詞和地點短語;
根據預設的詞權重表與所述預處理描述文本包含的詞的詞頻,確定所述預處理描述文本包含的詞的特征權重,其中,所述詞權重表中的詞對應的權重基于所述預設類別事件的關聯詞調整;
根據所確定的特征權重,從所述預處理描述文本中提取目標數目個關鍵詞。
2.根據權利要求1所述的方法,其中,所述地點短語通過以下步驟確定:
從所述描述文本中提取屬于預設地點關聯詞的詞;
將所提取的屬于預設地點關聯詞的詞進行組合,生成所述地點短語。
3.根據權利要求1所述的方法,其中,所述從所述描述文本中剔除目標文本,生成預處理描述文本,包括:
從所述描述文本中剔除屬于所述停用詞的詞,生成準處理文本;
從所述準處理文本中確定屬于預設觸發詞的詞所處的位置,其中,所述預設觸發詞用于指示存在地點關聯詞;
基于所確定的位置,確定所述屬于預設觸發詞的詞的前、后文是否存在用于指示地址的詞;
響應于確定存在,將所述屬于預設觸發詞的詞與所存在的用于指示地址的詞進行連接,以作為地點短語;
從所述準處理文本中剔除所述地點短語,生成所述預處理描述文本。
4.根據權利要求3所述的方法,其中,所述基于所確定的位置,確定所述屬于預設觸發詞的詞的前、后文是否存在用于指示地址的詞,包括:
基于所確定的位置,利用預設的詞性標注工具確定所述屬于預設觸發詞的詞的前、后文是否存在屬于用于指示地址的詞性的詞,其中,所述用于指示地址的詞性基于路網數據中的地址短語和興趣點而設置。
5.根據權利要求1所述的方法,其中,所述預設的詞權重表通過以下步驟得到:
獲取初始詞權重表;
將所述初始詞權重表中屬于預設待提升權重詞的詞對應的權重進行提升,其中,所述預設待提升權重詞包括與所述預設類別事件對應的處置部門相關的詞;
將權重提升后的初始詞權重表確定為所述預設的詞權重表。
6.根據權利要求1-5之一所述的方法,其中,所述方法還包括:
根據所述目標數目個關鍵詞對所述描述文本進行分類,生成分類結果;
按照所述目標數目個關鍵詞在所述描述文本中出現的先后順序進行排列,生成關鍵詞序列;
將所述關鍵詞序列與所述描述文本發送至所述描述文本對應的目標端,其中,所述目標端與所述描述文本的分類結果相關聯。
7.一種用于提取文本關鍵詞的裝置,包括:
獲取單元,被配置成獲取預設類別事件的描述文本;
生成單元,被配置成從所述描述文本中剔除目標文本,生成預處理描述文本,其中,所述目標文本包括停用詞和地點短語;
確定單元,被配置成根據預設的詞權重表與所述預處理描述文本包含的詞的詞頻,確定所述預處理描述文本包含的詞的特征權重,其中,所述詞權重表中的詞對應的權重基于所述預設類別事件的關聯詞調整;
提取單元,被配置成根據所確定的特征權重,從所述預處理描述文本中提取目標數目個關鍵詞。
8.根據權利要求7所述的裝置,其中,所述地點短語通過以下步驟確定:
從所述描述文本中提取屬于預設地點關聯詞的詞;
將所提取的屬于預設地點關聯詞的詞進行組合,生成所述地點短語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東城市(北京)數字科技有限公司,未經京東城市(北京)數字科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110718951.2/1.html,轉載請聲明來源鉆瓜專利網。





