[發明專利]面向會議知識圖譜的檢索方法在審
| 申請號: | 202111632562.4 | 申請日: | 2021-12-29 |
| 公開(公告)號: | CN114385827A | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 孫建偉;許佑駿 | 申請(專利權)人: | 上海云思智慧信息技術有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/289;G06F40/242;G06F16/28;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上?;ロ槍@硎聞账?普通合伙) 31332 | 代理人: | 成秋麗 |
| 地址: | 200336 上海市長寧區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 會議 知識 圖譜 檢索 方法 | ||
本發明公開了面向會議圖譜的檢索方法,具體地,包含以下三個步驟:1)用戶請求圖建立。2)會議知識圖譜候選子圖集建立。3)用戶請求圖與候選子圖匹配,本發明采用用戶請求圖來建模自然語言問題中的查詢意圖,在此基礎上將會議檢索簡化為用戶請求圖與候選子圖匹配問題。一方面解決了會議信息的檢索中自然語言問題的模糊性,提高了精度,大大提高了查詢性能。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種面向會議知識圖譜檢索方法。
背景技術
隨著在線會議系統的深入建設,各類會議記錄和會議紀要數據呈幾何級數增長。針對海量會議信息在搜索過程中帶來的挑戰,本發明提出了一種基于會議知識圖譜的檢索方法。知識圖譜是包含大量概念和關系的語義網絡,具有可解釋性,一般以RDF格式存儲。雖然SPARQL是訪問RDF數據的標準方法,但由于SPARQL語法和RDF模式的復雜性,它對用戶的使用來說仍然是困難的。由于用戶請求語句是非結構化數據,而會議知識圖譜是圖結構數據,兩者之間存在空白,通過將用戶請求語句建模為用戶請求圖,可將會議檢索問題建模為在會議知識圖譜上找到用戶請求圖的匹配問題。
發明內容
本發明面向海量會議文本的知識圖譜構建方法包括以下步驟:
步驟S1、用戶請求圖建立。
步驟S1.1:使用jieba分詞,將用戶輸入的檢索句劃分為實體集
步驟S1.5:使用Stanford parser進行檢索句的依賴樹構建
步驟S1.6:結構構建,輸入為檢索句子N,節點集合V以及依賴樹Y。輸出為檢索圖Q。首先初始化visit集合為空集,對于V中的每一個節點u,如果V中的節點v在依賴樹Y中與u聯通且v不屬于visit集合,則將v添加到visit集合
步驟S2、候選子圖建立。
步驟S2.1:匹配邊,輸入為關系集合T以及關系支持集合S。輸出為k個可能的路徑L,首先,找到關系支持集合中的節點v1和v2的所有圖中長度小于閾值θ的簡單路徑L,加入path集合中;將所有節點之間的path加入PS集合;如果關系集合T中的某個關系rel在PS集合中,計算該關系對應的所有L的TF-IDF值,選擇k個具有最大IF-IDF值的路徑,作為該關系的謂詞路徑;將TF-IDF作為關系rel映射為路徑L的置信概率;構建關系詞典,關系詞典為一個列數為3的表格,第一列為關系短語,第二列為路徑,第三列為置信概率;根據關系詞典,可以將檢索圖中的邊映射到會議知識圖譜中
步驟S2.2:匹配點,輸入檢索圖Q和會議知識圖譜G。輸出為G中k個與Q匹配的候選子圖
步驟S3、用戶請求圖與候選子圖匹配。
步驟S3.1:節點嵌入,將每個圖的節點轉換為一個向量,通過GCN對每個節點周圍的特征和結構信息進行編碼。計算節點間的相似性和執行注意機制需要節點級嵌入,將每個節點表示為向量,本發明采用圖卷積網絡GCN作為節點級嵌入算法,一方面由于GCN對于測試集中任何不可見的圖都具有圖表示不變性,一方面由于GCN是節點嵌入最簡潔的空間模型。GCN模型使用圖的結構來聚合鄰居節點信息,然后通過非線性激活函數更新節點表示。其核心操作是空間圖卷積層,表示如下:
Hl+1=f1(AHlW1l)
其中,A是一個歸一化的鄰接矩陣,Hl是第l層GCN的節點級嵌入,例如,H0即節點特征矩陣,W1l是第l層GCN的可學習權重,f1是非線性激活函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海云思智慧信息技術有限公司,未經上海云思智慧信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111632562.4/2.html,轉載請聲明來源鉆瓜專利網。





