[發明專利]一種關鍵詞抽取方法、裝置、電子設備及存儲介質在審
| 申請號: | 202011415835.5 | 申請日: | 2020-12-02 |
| 公開(公告)號: | CN112364648A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 黃曉萌;安旭;王溪 | 申請(專利權)人: | 中金智匯科技有限責任公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/284;G06F40/253;G06F40/242;G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 余菲 |
| 地址: | 100000 北京市北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關鍵詞 抽取 方法 裝置 電子設備 存儲 介質 | ||
1.一種關鍵詞抽取方法,其特征在于,包括:
獲取文本語料中的語句內容;
對所述語句內容進行分詞,獲得詞語集合;
對所述詞語集合進行詞性標注,獲得詞性集合;
對所述詞語集合和所述詞性集合進行句法分析,獲得分析結果,所述分析結果包括多條分析記錄,所述多條分析記錄中的每條分析記錄包括:所述詞語集合中的兩個詞語和所述兩個詞語之間的句法關系;
根據所述句法關系從所述分析結果中抽取出關鍵詞,獲得關鍵詞集合。
2.根據權利要求1所述的方法,其特征在于,所述根據所述句法關系從所述分析結果中抽取出關鍵詞,包括:
判斷所述分析記錄對應的句法關系是否為修飾性關系;
若是,則將所述修飾性關系對應的兩個詞語都確定為所述關鍵詞。
3.根據權利要求1所述的方法,其特征在于,所述根據所述句法關系從所述分析結果中抽取出關鍵詞,包括:
判斷所述分析記錄對應的句法關系是否為關聯修飾關系;
若是,則將所述關聯修飾關系對應的修飾詞語確定為所述關鍵詞。
4.根據權利要求1所述的方法,其特征在于,所述根據所述句法關系從所述分析結果中抽取出關鍵詞,包括:
判斷所述分析結果是否滿足預設條件,所述預設條件包括:第一詞語為第二詞語的直接賓語,且所述第二詞語與第三詞語的句法關系為修飾性關系;
若是,則將所述第一詞語、所述第二詞語和所述第三詞語都確定為所述關鍵詞。
5.根據權利要求1所述的方法,其特征在于,所述根據所述句法關系從所述分析結果中抽取出關鍵詞,包括:
判斷所述分析記錄對應的句法關系是否為預設關系,所述預設關系是以數詞修飾語關系相連接的兩個詞語中的任意一個與數量詞間接賓語相連接的關系;
若是,則將所述預設關系對應的兩個詞語都確定為所述關鍵詞。
6.根據權利要求1-5任一所述的方法,其特征在于,在所述獲得關鍵詞集合之后,還包括:
在同義詞庫中查找到所述關鍵詞集合中的每個關鍵詞的同義詞;
根據所述關鍵詞集合和所述每個關鍵詞的同義詞生成匹配規則。
7.根據權利要求6所述的方法,其特征在于,所述在同義詞庫中查找到所述關鍵詞集合中的每個關鍵詞的同義詞,包括:
使用預訓練的神經網絡詞向量模型提取所述關鍵詞的第一詞向量;
判斷所述關鍵詞的第一詞向量與所述同義詞庫中的詞語對應的第二詞向量之間的相似度是否大于預設閾值;
若是,則將所述第二詞向量對應的詞語確定為所述關鍵詞的同義詞。
8.一種關鍵詞抽取裝置,其特征在于,包括:
語句內容獲取模塊,用于獲取文本語料中的語句內容;
詞語集合獲得模塊,用于對所述語句內容進行分詞,獲得詞語集合;
詞性集合獲得模塊,用于對所述詞語集合進行詞性標注,獲得詞性集合;
分析結果獲得模塊,用于對所述詞語集合和所述詞性集合進行句法分析,獲得分析結果,所述分析結果包括多條分析記錄,所述多條分析記錄中的每條分析記錄包括:所述詞語集合中的兩個詞語和所述兩個詞語之間的句法關系;
關鍵詞語抽取模塊,用于根據所述句法關系從所述分析結果中抽取出關鍵詞,獲得關鍵詞集合。
9.一種電子設備,其特征在于,包括:處理器和存儲器,所述存儲器存儲有所述處理器可執行的機器可讀指令,所述機器可讀指令被所述處理器執行時執行如權利要求1至7任一所述的方法。
10.一種存儲介質,其特征在于,該存儲介質上存儲有計算機程序,該計算機程序被處理器運行時執行如權利要求1至7任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中金智匯科技有限責任公司,未經中金智匯科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011415835.5/1.html,轉載請聲明來源鉆瓜專利網。





