[發明專利]一種關鍵詞抽取方法、裝置、電子設備及存儲介質在審
| 申請號: | 202011415835.5 | 申請日: | 2020-12-02 |
| 公開(公告)號: | CN112364648A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 黃曉萌;安旭;王溪 | 申請(專利權)人: | 中金智匯科技有限責任公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/284;G06F40/253;G06F40/242;G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 余菲 |
| 地址: | 100000 北京市北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關鍵詞 抽取 方法 裝置 電子設備 存儲 介質 | ||
本申請提供一種關鍵詞抽取方法、裝置、電子設備及存儲介質,該方法包括:獲取文本語料中的語句內容;對語句內容進行分詞,獲得詞語集合;對詞語集合進行詞性標注,獲得詞性集合;對詞語集合和詞性集合進行句法分析,獲得分析結果;根據句法關系從分析結果中抽取出關鍵詞,獲得關鍵詞集合。在上述的實現過程中,通過對文本語料中的語句內容依次進行分詞、詞性標注和句法分析,獲得能夠體現語句內容中兩個詞語之間的句法關系,并根據該句法關系來從分析結果中抽取出更加準確的關鍵詞,有效地利用了句法關系的信息來提高獲得關鍵詞的準確率,從而提高了獲得關鍵詞集合的準確率。
技術領域
本申請涉及自然語言處理的技術領域,具體而言,涉及一種關鍵詞抽取方法、裝置、電子設備及存儲介質。
背景技術
關鍵詞抽取,是指利用自然語言處理(Natural Language Processing,NLP)技術從大量文本內容中抽取出關鍵的詞語。關鍵詞抽取是自然語言處理(NLP)領域的經典課題,也是人們從海量數據中高效地獲取有效信息的重要手段。
目前,使用基于統計學的方法來對關鍵詞進行抽取,需要具備統計學知識和語言學知識的業務人員根據業務需求定制出統計維度,并根據定制的統計維度對文本語料進行統計學分析,然后按照重要程度對統計結果中的詞語進行獲取,從而獲得關鍵詞集合,此處的統計維度包括:詞頻和詞性等。
在具體的實踐過程中發現,基于統計學的方法對沒有固定規則或者統計學特點不明顯的文本語料進行關鍵詞抽取的準確率較低,此處的統計學特點不明顯的文本語料具體例如:在線客戶服務溝通日志、電話回訪服務質量日志或者電話銷售溝通記錄等等。
發明內容
本申請實施例的目的在于提供一種關鍵詞抽取方法、裝置、電子設備及存儲介質,用于改善對關鍵詞進行抽取的準確率較低的問題。
本申請實施例提供了一種關鍵詞抽取方法,包括:獲取文本語料中的語句內容;對語句內容進行分詞,獲得詞語集合;對詞語集合進行詞性標注,獲得詞性集合;對詞語集合和詞性集合進行句法分析,獲得分析結果,分析結果包括多條分析記錄,多條分析記錄中的每條分析記錄包括:詞語集合中的兩個詞語和兩個詞語之間的句法關系;根據句法關系從分析結果中抽取出關鍵詞,獲得關鍵詞集合。在上述的實現過程中,通過對文本語料中的語句內容依次進行分詞、詞性標注和句法分析,獲得能夠體現語義理解基礎上兩個詞語之間的句法關系,并根據該句法關系來從分析結果中抽取出更加準確的關鍵詞,有效地利用了句法關系的信息來提高獲得關鍵詞的準確率,從而提高了獲得關鍵詞集合的準確率。
可選地,在本申請實施例中,根據句法關系從分析結果中抽取出關鍵詞,包括:判斷分析記錄對應的句法關系是否為修飾性關系;若是,則將修飾性關系對應的兩個詞語都確定為關鍵詞。在上述的實現過程中,若分析記錄對應的句法關系為修飾性關系,則將修飾性關系對應的兩個詞語都確定為關鍵詞;有效地利用了修飾性關系來提高獲得關鍵詞的準確率,從而提高了獲得關鍵詞集合的準確率。
可選地,在本申請實施例中,根據句法關系從分析結果中抽取出關鍵詞,包括:判斷分析記錄對應的句法關系是否為關聯修飾關系;若是,則將關聯修飾關系對應的修飾詞語確定為關鍵詞。在上述的實現過程中,若分析記錄對應的句法關系為關聯修飾關系,則將關聯修飾關系對應的修飾詞語確定為關鍵詞;有效地利用了關聯修飾關系來提高獲得關鍵詞的準確率,從而提高了獲得關鍵詞集合的準確率。
可選地,在本申請實施例中,根據句法關系從分析結果中抽取出關鍵詞,包括:判斷分析結果是否滿足預設條件,預設條件包括:第一詞語為第二詞語的直接賓語,且第二詞語與第三詞語的句法關系為修飾性關系;若是,則將第一詞語、第二詞語和第三詞語都確定為關鍵詞。在上述的實現過程中,若分析結果是否滿足預設條件,預設條件包括:第一詞語為第二詞語的直接賓語,且第二詞語與第三詞語的句法關系為修飾性關系,則將第一詞語、第二詞語和第三詞語都確定為關鍵詞;有效地利用了直接賓語加修飾性關系來提高獲得關鍵詞的準確率,從而提高了獲得關鍵詞集合的準確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中金智匯科技有限責任公司,未經中金智匯科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011415835.5/2.html,轉載請聲明來源鉆瓜專利網。





