[發明專利]一種基于深度學習的電力通信領域知識圖譜問答系統的構建方法在審
| 申請號: | 201811441698.5 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109271506A | 公開(公告)日: | 2019-01-25 |
| 發明(設計)人: | 李石君;馬旭強;楊濟海;余偉;余放;李宇軒 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/36 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 問答系統 預處理 電力通信 領域知識 向量化 答案 構建 圖譜 自然語言 語義匹配度計算 自然語言問題 查詢 國家電網 通信領域 圖譜構建 用戶查詢 語義表示 語義解析 候選集 匹配度 推理 匹配 取出 學習 焦點 研究 | ||
本發明涉及一種基于深度學習的電力通信領域知識圖譜問答系統的構建方法,實現步驟為:步驟1:語義解析,即對用戶用自然語言提出的問題q進行預處理,從中抽取出用戶查詢的關鍵字,查詢句關注的焦點等作為問句的實體w。步驟2:語義表示,即將經過預處理的自然語言問題向量化,同時將答案a的候選集向量化,用于后續計算問題q和答案a的匹配度。步驟3:通過語義匹配度計算、查詢以及推理等方法,找出與問題q最匹配、最準確的答案a,使得該問答對(q,a)的得分S(q,a)最高。通過本發明研究通過知識圖譜構建的問答系統在國家電網通信領域的可行性。
技術領域
本發明屬于電力通信行業知識圖譜的應用范疇,特別涉及了一種基于深度學習(Deep learning)的知識圖譜問答系統(Knowledge base question answering)的構建方法。
背景技術
知識圖譜(Knowledge Graph):本質上是一種具有屬性的實體對通過關系鏈接而成的結構化的語義知識庫。其中包含大量的實體對關系,用于以符號形式描述物理世界中的概念以及概念之間的相互關系。從圖的角度來看,知識圖譜其實就是一種概念網絡,網絡的節點是現實世界中的實體,而網絡的邊表示實體對之間的聯系(關系)[1]。
知識圖譜這個概念最早是在2012年由Google公司提出,用于增強其搜索引擎功能的知識庫[2],目的是將搜索關鍵字進行系統化,從而使每一個關鍵字都擁有一個完整的知識體系,從而提高搜索質量[3]。傳統的搜索引擎技術雖然能夠根據用戶的查詢結構快速篩選和排序大量網頁,提高信息檢索的效率。但是由于其不能快速準確地給用戶反饋具體的問題答案,隨著互聯網信息總量的爆炸性增長,這種信息檢索方式逐漸已不能滿足用戶的需求。知識圖譜的出現為解決大數據下用戶信息檢索這一難題提供了可行的方案[4].
常見的知識圖譜可以分為通用知識圖譜和行業知識圖譜兩個大類。通用知識圖譜強調在大數據的基礎之上構建知識圖譜,典型的大規模知識庫有Freebase[5]、Wikidata[6]、DBpedia[7]、 YAGO[8]等,它們不僅包含大量的半結構化和非結構化數據,同時具有較高的領域覆蓋面。而行業知識圖譜使用特定行業的數據來構建知識庫,因此通常數據規模較通用知識圖譜要小,但實體的屬性和數據模式比較豐富。行業知識圖譜較通用知識圖譜的準確度要高,但是只適用于特定領域。目前,行業知識圖譜在電商、金融等行業已經得到了研究和發展[9]。
知識圖譜通常采用“三元組”的表示方式,即G=(E,R,S)。其中,E={e1,e2,...,e|E|}代表知識庫中的實體集合,表示共有|E|個不同的實體;R={r1,r2,...,r|R|}代表知識庫中實體對間的實體關系集合,|R|為實體關系的數量;代表的就是知識圖譜的三元組集合,也就是整個知識庫的代表。知識圖譜的三元組集合表示的就是實體與實體之間的關系或者概念與屬性之間的關系。
問答系統(Question Answering System):簡稱QA,是信息檢索的一種高級形式,其簡單、準確的互動方式使得問答系統成為自然語言處理(NLP)的應用領域的又一研究熱點。與傳統搜索引擎不同的是,問答系統接受用戶用自然語言的描述方式來提出問題(例如:姚明身高多少?),并且通過一系列NLP對文本的處理技術,能夠從大量的異構數據知識庫中查找出用戶所提問題的準確、簡潔的回答方案。而傳統的網絡信息查詢工具主要是基于關鍵字的匹配來進行查找的,雖然這種方案通常可以滿足用戶的需求,但是由于其用關鍵字來表述問題的方式缺少對問題上下文的背景信息,因此檢索到的結果往往是經過PageRank排序的數以萬計的相關網頁,而用戶需求的往往是其中的一小部分。因此問答系統與根據關鍵字匹配來返回相關文檔集合的傳統搜索引擎有著本質的區別[10]。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811441698.5/2.html,轉載請聲明來源鉆瓜專利網。





