[發明專利]概念挖掘方法及裝置、電子設備及可讀存儲介質有效
| 申請號: | 202210320584.5 | 申請日: | 2022-03-29 |
| 公開(公告)號: | CN114741508B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 付俊杰;王宗宇;謝睿;武威 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06F40/216;G06F40/289;G06N3/0442 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 任亞娟 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 概念 挖掘 方法 裝置 電子設備 可讀 存儲 介質 | ||
本發明公開了一種概念挖掘方法及裝置、電子設備及可讀存儲介質。其中,該方法包括:獲取目標文本對應的候選概念;通過預先訓練完成的概念判別模型,根據目標文本的文本特征以及候選概念的概念特征,確定候選概念是否為合理候選概念;候選概念為合理候選概念,則根據預設概念清洗規則對候選概念進行數據清洗,以得到目標文本對應的目標概念;否則,丟棄候選概念。本發明解決了由于相關技術中對用戶搜索詞以及自然語言表達的概念等泛化能力較差,而導致概念數據的質量較低的技術問題。
技術領域
本發明涉及數據挖掘技術領域,具體而言,涉及一種概念挖掘方法及裝置、電子設備及可讀存儲介質。
背景技術
機器智能化建立在大量的知識之上,而現有的知識大部分是零散的,更深層次的人工智能需要成體系的、結構化的知識。知識圖譜(Knowledge?Graph)從早年的語義網絡(Semantic?Network)發展至今,已成為自然語言處理領域非常熱門的研究領域,它能建立零散知識之間的聯系,形成新的知識,具有知識共享的能力。
在構建知識圖譜的過程中,需要從大量零散的文本數據中挖掘結構化的數據,首要的一步就是識別文本中的概念,然后建立概念之間的各種關系,這些概念可以是實體、短語等等,根據實際應用場景的不同,對概念的定義會有所不同。通常涉及到實體識別、短語挖掘、概念識別等自然語言處理任務中的子領域。
申請人在實現本發明的過程中,發現相關技術中至少存在以下技術問題。
1.現有技術中缺少針對生活服務領域的大規模常識性知識圖譜數據,而對于Query的可理解必須借助于知識,把用戶搜索的Query能夠進行拆分,借助知識理解不同的語義單元表述的意圖,這樣才能做基于知識的搜索引擎。
2.現有少數方案雖然區分原子概念、復合概念,但是模型對低頻、偏用戶自然語言表達的概念泛化能力較差,對整個文檔進行編碼容易帶來大量冗余信息。
3.之前的候選概念的生成方法往往只能產生連續的字符串,而在具體地應用場景下,用戶搜索Query是一個重要的概念挖掘來源,用戶在搜索Query中表達的很多概念可能在文本上并不連續,現有候選數據生成方法難以覆蓋,如用戶搜索“適合晚上蹦迪放松的酒吧”,采用序列標注模型或者短語挖掘模型都不能生成“蹦迪酒吧”這樣的候選概念。
可見,相關技術中針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種概念挖掘方法及裝置、電子設備及可讀存儲介質,以至少解決由于相關技術中對用戶搜索詞以及自然語言表達的概念等泛化能力較差,而導致概念數據的質量較低的技術問題。
根據本發明實施例的一個方面,提供了一種概念挖掘方法,包括:獲取目標文本對應的候選概念;通過預先訓練完成的概念判別模型,根據所述目標文本的文本特征以及所述候選概念的概念特征,確定所述候選概念是否為合理候選概念;所述候選概念為合理候選概念,則根據預設概念清洗規則對所述候選概念進行數據清洗,以得到所述目標文本對應的目標概念;否則,丟棄所述候選概念。
進一步地,獲取目標文本對應的候選概念,包括以下至少之一:從預設數據庫中存儲的候選短語中獲取所述候選概念;或,對預設平臺中的用戶搜索詞進行分詞,以得到所述候選概念;或,通過預先訓練完成的短語挖掘模型,從所述預設平臺的用戶生成數據中獲取所述候選概念。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210320584.5/2.html,轉載請聲明來源鉆瓜專利網。





