[發明專利]一種基于知識圖譜的短文本理解方法及裝置有效
| 申請號: | 201610562241.4 | 申請日: | 2016-07-13 |
| 公開(公告)號: | CN106250393B | 公開(公告)日: | 2017-08-25 |
| 發明(設計)人: | 黃明新 | 申請(專利權)人: | 廣州安望信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州市越秀區哲力專利商標事務所(普通合伙)44288 | 代理人: | 陳振楔,李悅 |
| 地址: | 510000 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 文本 理解 方法 裝置 | ||
技術領域
本發明屬于信息搜索領域,尤其涉及一種基于知識圖譜的短文本理解方法及裝置。
背景技術
知識圖譜旨在描述真實世界中存在的各種實體或概念。其中,每個實體或概念用一個全局唯一確定的ID來標識,稱為它們的標識符(identifier)。每個屬性-值對(attribute-value pair,又稱AVP)用來刻畫實體的內在特性,而關系(relation)用來連接兩個實體,刻畫它們之間的關聯。知識圖譜亦可被看作是一張巨大的圖,圖中的節點表示實體或概念,而圖中的邊則由屬性或關系構成,如圖1所示,為知識圖譜的示意圖,現在知識圖譜主要應用在答案推理,文檔重要性排序和精確查詢中。
目前的知識圖譜的產品的搜索都是需要精確編輯搜索語句或者是基于一種文本規則進行查詢搜索,并不能實現基于日常語句的查詢搜索,因此,知識圖譜基于日常語句的查詢搜索成為本領域技術人員需要解決的問題,
發明內容
為了克服現有技術的不足,本發明的目的之一在于提供一種基于知識圖譜的短文本理解方法,其能解決基于知識圖譜的簡單語句的查詢理解的技術問題。
本發明的目的之二在于提供一種基于知識圖譜的短文本的理解裝置,其能解決基于知識圖譜的簡單語句的查詢理解的技術問題。
本發明的目的之一采用以下技術方案實現:
一種基于知識圖譜的短文本理解方法,包括以下步驟:
S1:根據知識圖譜數據抽取短文本中的特征詞,所述知識圖譜數據包括實體、屬性、概念和關系,所述特征詞包括實體特征詞、屬性特征詞、概念特征詞和關系特征詞中的一種或多種;
S2:判斷抽取到的特征詞是否為實體特征詞,如果是,則執行步驟S3;如果否,則執行步驟S4;
S3:將每一實體特征詞在知識圖譜數據中進行搜索,以獲取與實體特征詞相關聯的特征詞群,然后執行步驟S5;
S4:在知識圖譜數據中檢索出與屬性特征詞或者與概念特征詞對應的實體特征詞,然后對檢索后的實體特征詞在知識圖譜數據中進行搜索,以獲取與實體特征詞相關聯的特征詞群,然后執行步驟S5;
S5:根據特征詞群生成結果樹。
優選地,在步驟S1和步驟S2之間還包括以下步驟,
S11:按照預設結構對抽取的每一個特征詞進行保存,所述預設結構包括特征詞、所屬類型、開始位置和結束位置;
S12:判斷抽取到的特征詞是否相近,如果是,則執行步驟S13; 如果否,則執行步驟S2;
S13:比對至少兩個特征詞的預設結構中的開始位置和結束位置,如果開始位置相同,則執行步驟S14;如果開始位置不同,則執行步驟S15;
S14:去除結束位置大的特征詞;
S15:去除開始位置大的特征詞。能夠進一步提高識別的準確性。
優選地,在步驟S1中具體為:根據知識圖譜數據以多模式匹配算法抽取短文本中的特征詞。其能進一步解決抽取特征詞的速度的技術問題。
優選地,步驟S3和步驟S4中的知識圖譜搜索主要包括以下步驟:
根據實體特征詞遍歷知識圖譜數據中與實體對應的屬性和關系;
對與實體特征詞對應的概念進行知識圖譜搜索;
遍歷與實體特征詞相關聯的實體和關系;
當識別后的特征詞全部出現過時,則停止搜索。
本發明的目的之二采用以下技術方案實現:
一種基于知識圖譜的短文本理解裝置,包括以下模塊:
抽取模塊:根據知識圖譜數據抽取短文本中的特征詞,所述知識圖譜數據包括實體、屬性、概念和關系,所述特征詞包括實體特征詞、屬性特征詞、概念特征詞和關系特征詞;
第一判斷模塊:對特征詞進行判斷,如果特征詞為實體特征詞,則執行實體搜索模塊;如果特征詞為屬性特征詞、關系特征詞或者概念特征詞,則執行關系搜索模塊;
實體搜索模塊:將每一實體特征詞在知識圖譜數據中進行搜索,以獲取與實體特征詞相關聯的特征詞群,然后執行步驟生成模塊;
關系搜索模塊:在知識圖譜數據中檢索出與屬性特征詞或者與概念特征詞對應的實體特征詞,然后對檢索后的實體特征詞在知識圖譜數據中進行搜索,以獲取與實體特征詞相關聯的特征詞群,然后執行生成模塊;
生成模塊:根據特征詞群生成結果樹。
優選地,在抽取模塊與第一判斷模塊之間還包括以下子模塊,
在抽取模塊與第一判斷模塊之間還包括以下子模塊,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州安望信息科技有限公司,未經廣州安望信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610562241.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據排行的方法及裝置
- 下一篇:網絡資源內容洞察系統及方法





