[發明專利]面向會議知識圖譜的檢索方法在審
| 申請號: | 202111632562.4 | 申請日: | 2021-12-29 |
| 公開(公告)號: | CN114385827A | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 孫建偉;許佑駿 | 申請(專利權)人: | 上海云思智慧信息技術有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/289;G06F40/242;G06F16/28;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海互順專利代理事務所(普通合伙) 31332 | 代理人: | 成秋麗 |
| 地址: | 200336 上海市長寧區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 會議 知識 圖譜 檢索 方法 | ||
1.一種面向面向會議圖譜的檢索方法,其特征在于,包含以下步驟:
步驟S1:用戶請求圖建立,包括以下步驟:
步驟S1.1:使用jieba分詞,將用戶輸入的檢索句劃分為實體集;
步驟S1.2:使用Stanford parser進行檢索句的依賴樹構建;
步驟S1.3:結構構建,輸入為檢索句子N,節點集合V以及依賴樹Y;輸出為檢索圖Q;首先初始化visit集合為空集,對于V中的每一個節點u,如果V中的節點v在依賴樹Y中與u聯通且v不屬于visit集合,則將v添加到visit集合;
步驟S2:;候選子圖建立,包括以下步驟:
步驟S2.1:匹配邊,輸入為關系集合T以及關系支持集合S;輸出為k個可能的路徑L,首先,找到關系支持集合S中的節點v1和v2所有圖中有長度小于閾值θ的簡單路徑L,加入path集合中;將所有節點之間的path加入PS集合;如果關系集合T中的某個關系rel在PS集合中,計算該關系對應的所有L的TF-IDF值,選擇k個具有最大IF-IDF值的路徑,作為該關系的謂詞路徑;將TF-IDF作為關系rel映射為路徑L的置信概率;構建關系詞典,關系詞典為一個列數為3的表格,第一列為關系短語,第二列為路徑,第三列為置信概率;根據關系詞典,將檢索圖中的邊映射到會議知識圖譜中;
步驟S2.2:匹配點,輸入檢索圖Q和會議知識圖譜G;輸出為G中k個與Q匹配的候選子圖;
步驟S3:用戶請求圖與候選子圖匹配,采用一個端到端的神經網絡來學習用戶請求圖與k個候選子圖的關系,最終生成一個預測匹配矩陣;包括以下步驟:
步驟S3.1:節點嵌入,將每個圖的節點轉換為一個向量,通過GCN對每個節點周圍的特征和結構信息進行編碼;計算節點間的相似性和執行注意機制需要節點級嵌入,將每個節點表示為向量,采用圖卷積網絡GCN作為節點級嵌入算法,一方面由于GCN對于測試集中任何不可見的圖都具有圖表示不變性,一方面由于GCN是節點嵌入最簡潔的空間模型;GCN模型使用圖的結構來聚合鄰居節點信息,然后通過非線性激活函數更新節點表示;其核心操作是空間圖卷積層,表示如下:
Hl+1=f1(AHlW1l)
其中,A是一個歸一化的鄰接矩陣,Hl是第l層GCN的節點級嵌入,W1l是第l層GCN的可學習權重,f1是非線性激活函數;
應用到候選子圖與用戶檢索圖中,分別得出用戶請求圖Q的節點級嵌入HQ與候選子圖H的節點級嵌入HG,這里GCN的權重對于Q和G是共享的;
步驟S3.2:通過以下基于神經網絡的函數計算兩個實體處于某種關系中的可能性的分數:
其中,f2是一個非線性激活函數,V2和b2都是可學習的參數,e1和e2是兩個實體的表示;
應用到候選子圖與用戶檢索圖中,可建模得到兩個節點之間的關系為:
OPl=Sl*ATTl
其中,和是用戶請求圖Q與候選子圖G的一個節點的嵌入;ATTl是節點到節點的注意力,Sl是經過GCN層后得出的節點與節點之間的相似度,f2是sigmoid函數,σ是一個softmax函數用來保證ATTl的每一行之和為1,OPl是第l層GCN的相似性張量;
步驟S3.3:輸出;前面步驟獲得l個OPl,通過對它們執行連接操作;使用1x1卷積將連接的相似張量的維數減少到與ground-truth矩陣形狀相同輸出;
OP=σ(Conv1×1(concatenation(OP1,...,OPl)))
其中,OP是最終輸出,σ是一個softmax函數用來保證OP的每一行之和為1,訓練階段,通過與ground-truth矩陣M逼近來收斂模型,訓練階段所使用的損失函數為:
其中,D為訓練集,|D|為訓練集中樣本的個數;
訓練集的構建,使用一個無向圖生成器,生成器有三個參數,包括要生成的圖的大小|g|、在節點和節點之間生成一條邊的概率p以及節點特征N的最大值;每個節點都被分配一個范圍為[1,N]的隨機整數作為節點特征;將查詢圖Q隨機插入到每個中候選字圖G,從而得到樣本,每個樣本都是一個包含一個數據圖和一個查詢圖的圖對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海云思智慧信息技術有限公司,未經上海云思智慧信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111632562.4/1.html,轉載請聲明來源鉆瓜專利網。





