[發明專利]一種基于深度學習的電力通信領域知識圖譜問答系統的構建方法在審
| 申請號: | 201811441698.5 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109271506A | 公開(公告)日: | 2019-01-25 |
| 發明(設計)人: | 李石君;馬旭強;楊濟海;余偉;余放;李宇軒 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/36 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 問答系統 預處理 電力通信 領域知識 向量化 答案 構建 圖譜 自然語言 語義匹配度計算 自然語言問題 查詢 國家電網 通信領域 圖譜構建 用戶查詢 語義表示 語義解析 候選集 匹配度 推理 匹配 取出 學習 焦點 研究 | ||
1.一種基于深度學習的電力通信領域知識圖譜問答系統的構建方法,其特征在于,將用戶提出的自然語言問題表示為q=ω1...ωn,將問題的所有候選答案表示為答案候選集Cq,具體包括:
步驟1:語義解析,具體是對用戶用自然語言提出的問題q進行預處理,從中抽取出用戶查詢的關鍵字,查詢句關注的焦點等作為問句的實體w;
步驟2:語義表示,具體是將經過預處理的自然語言問題向量化,同時將答案a的候選集向量化,用于后續計算問題q和答案a的匹配度;
步驟3:通過語義匹配度計算、查詢以及推理,找出與問題q最匹配、最準確的答案a,使得該問答對(q,a)的得分S(q,a)最高。
2.根據權利要求1所述的一種基于深度學習的電力通信領域知識圖譜問答系統的構建方法,其特征在于,所述步驟1具體包括:
步驟1.1,問題分詞以及詞性標注:采用漢語詞法分析系統進行問題分詞以及詞性標注;在經過分詞之后,將自然語言問題表述為q=ω1...ωn,其中wn為中文詞語;
步驟1.2,問題命名實體識別:根據步驟1.1中標注的詞性篩選出問題q中描述的命名實體,作為問題的關鍵字和關注焦點;關鍵詞抽取常用的方法是統計法,即通過確定候選詞的權重,從中篩選出權重大的作為最終的關鍵詞;關鍵詞抽取的具體方法是:
步驟1.21,將正文進行分詞處理;
步驟1.22,過濾掉停用詞,即虛詞、語氣詞以及標點符號等;
步驟1.23,根據統計的詞頻和位置信息,分別計算出詞語的詞頻因子和位置因子;
步驟1.24,用具體的詞語權重函數計算出詞語的權重,對其排序,選取權值大者為關鍵詞;
步驟1.23,抽取過程后,進行命名實體的識別,以便對句子的主語和賓語進行計算;
步驟1.3,生成答案候選集:根據問題q的關鍵詞以及命名實體,在知識庫中檢索出該實體結點及其在2-hops范圍之內的鄰近結點,共同組成問題q的答案候選集Cq。
3.根據權利要求1所述的一種基于深度學習的電力通信領域知識圖譜問答系統的構建方法,其特征在于,所述步驟2具體包括:
步驟2.1,問題q向量化:對于經過預處理的問題q=ω1...ωn,將其中的每一個詞語ωj映射成一個低維空間的向量wj,即為詞的向量化;通過詞嵌入矩陣Wv將其轉換為一個d維的分布式向量,即
wj=Wvu(ωj)
其中(u(ωj)∈{0,1}|V|)為單詞ωj對應的one-hot形式,是詞嵌入矩陣(wordembedding matrix),|V|表示詞匯量的大小;在MCCNNs網絡的訓練過程中,Wv作為超參數被不斷更新;
然后,在神經網絡的卷積層使用滑動窗口計算問題q的表示;例如對于MCCNNs的第i列,計算問題q的n維向量如下:
其中,2s+1即為滑動窗口的大小,為卷積層的權重矩陣,表示偏差向量,h(·)為非線性函數(如sigmoid函數、tanh函數等);
最后,在最大池化層訓練輸出固定大小的問題q的向量表示,其中MCCNNs的第i列激活單元的輸出為:
其中max{.}為最大值函數;這樣最終得到了問題q的低維空間向量fi(q);
步驟2.2,候選答案集的向量化:對于答案的三種特征,答案路徑、答案上下文信息以及答案類型,分別表示出其向量化的過程:
對于答案路徑(Answer Path):表示的是答案節點與問題中的命名實體的關聯關系;則答案路徑的分布式表達g1(a)的向量表示可用以下公式計算:
其中,||·||1表示L1范數,up(a)∈R|R|×1為二元向量用來表示答案路徑的每一個關聯關系是否存在,為參數矩陣,|R|為關聯關系的個數;
對于答案上下文信息(Answer Context):其作用是用來處理問題的約束條件;將答案實體對應1跳(hop)范圍內的實體關系和實體作為答案實體的上下文信息;通過同樣的方式得到答案上下文信息的分布式表達為:
其中,uc(a)∈R|C|×1表示信息節點是否存在的二元向量,|C|代表答案上下文存在的實體對關系的個數,為參數矩陣;
對于答案類型(Answer Type):類型是一種特殊的實體關系,比如時間2018-01-01的類型是datetime;通過同樣的方式,得到相應的分布式表達為:
其中,為嵌入類型的矩陣,ut(a)∈R|T|×1表示答案類型是否存在的二元變量,|T|為答案類型的數目;
結合以上描述,得到了MCCNNs的最終輸出函數為:
4.根據權利要求1所述的一種基于深度學習的電力通信領域知識圖譜問答系統的構建方法,其特征在于,所述步驟3具體包括:
步驟3.1,訓練MCCNNs神經網絡模型:對于問題q的每一個正確的答案a∈Aq,隨機地從答案候選集Cq中抽取出k個錯誤的答案a'作為樣本,將其作為訓練模型參數的負樣本;則Hinge損失函數可以定義為:
l(q,a,a')=(m-S(q,a)+S(q,a'))+
其中,S(·,·)為步驟2中定義的得分函數,m為間隔參數用來規范兩種得分S(q,a)和S(q,a')
之間的間隔,并且(z)+=max{0,z};則主觀函數為:
其中|Aq|表示準確答案的個數,為k個錯誤答案的集合;
采用神經網絡的反向傳播算法來訓練該模型,通過計算超參數的梯度值來利用梯度下降算法不斷更新它;
步驟3.2,語義匹配及推理:在測試過程中檢索了所有的有關問題q的答案候選集Cq;對于每一個候選答案計算出其得分則候選答案集中得分最高的答案a即為問題q的最準確答案;
對于自然語言問句q,由于其準確答案可能不止一個,比如“設備的型號類型”;因此,需要一種評比準則來決定最終答案;評比準則公式為:
其中m為步驟3.1中定義的間隔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811441698.5/1.html,轉載請聲明來源鉆瓜專利網。





