[發明專利]一種基于可信網頁資源的知識圖譜構建方法有效
| 申請號: | 202010107687.4 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN111368092B | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 宋曉兆;張楚一;胡巖峰;付啟明;陳尚;鄧竟成 | 申請(專利權)人: | 中國科學院電子學研究所蘇州研究院 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/951 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 封睿 |
| 地址: | 215000 江蘇省蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 可信 網頁 資源 知識 圖譜 構建 方法 | ||
1.基于可信網頁資源的知識圖譜構建方法,其特征在于,包括如下步驟:
步驟1:獲取每個百科頁面參考資料中的鏈接,并記錄對應的百科頁面中的主題,構建(百科頁面,主題,鏈接)三元組初始化可信網頁資源;
步驟2:按主題、頁面、鏈接廣度優先的方式爬取步驟一中鏈接的網頁中的文本及網頁中的鏈接,并將網頁中的鏈接加入隊列確定主題模型的訓練集;
步驟3:根據步驟二中爬取的網頁文本和主題標簽,訓練LDA模型;
步驟4:爬取隊列中的網頁,并將網頁中的鏈接加入隊列,當所爬取的網頁的鏈接屬于步驟1中的1跳鏈接時直接輸出該網頁用作知識抽取,否則,使用步驟3中的LDA模型計算其文檔的主題分布,作為特征T1記錄,并按主題分布聚類;
步驟5:對每個聚類簇分別計算每個網頁的TrustRank值,作為特征T2;
步驟6:從步驟5計算過TrustRank值的目標網頁集合中選取網頁進行可信度標注,結合對應的特征T1和T2,訓練知識來源識別模型;
步驟7:批量獲得新的待識別網頁并計算特征,使用知識來源識別模型識別,當識別為知識來源時輸出網頁作知識抽取,否則直接出隊列;
步驟8:重復步驟7,直至步驟4中隊列為空或知識抽取規模達到存儲上限。
2.根據權利要求1所述的基于可信網頁資源的知識圖譜構建方法,其特征在于,步驟1中,通過解析轉儲文件或者爬蟲的方式獲取百科頁面。
3.根據權利要求1所述的基于可信網頁資源的知識圖譜構建方法,其特征在于,步驟1中,將百科頁面分為人物、自然、文化、體育、社會、歷史、地理、科學、娛樂、生活10類。
4.根據權利要求1所述的基于可信網頁資源的知識圖譜構建方法,其特征在于,步驟2中,當每個主題下爬取的網頁文本D數量大于設定的第一閾值時執行步驟3,否則重復步驟2繼續爬取。
5.根據權利要求1所述的基于可信網頁資源的知識圖譜構建方法,其特征在于,步驟4中,當每個聚類簇大于設定的第二閾值時執行步驟5,否則重復步驟4。
6.根據權利要求1所述的基于可信網頁資源的知識圖譜構建方法,其特征在于,步驟5中,計算每個網頁的特征T2的具體方法為:
(1)定義百科參考資料一跳鏈接的網頁為TrustRank的種子集,對于訓練知識庫每個類別的鏈接網頁類簇Wsi,設置靜態得分分布向量為d,其維度為聚類簇中網頁的個數,每一維對應一個網頁的靜態得分,當網頁屬于種子集時,其值設為1,否則設為0;
(2)初始化每個類別的鏈接網頁類簇Wsi的TrustRank得分向量t0,令t0=d’=d/|d|,向量每一維對應每個網頁的TrustRank得分值;
(3)對每個類別的鏈接網頁類簇Wsi,V節點表示網頁的集合,E表示網頁與網頁間的鏈接集合,構建每個類別的鏈接網頁類簇的拓撲圖,計算對應的轉移矩陣T,其元素為w(q)表示q結點所含的鏈接數;
(4)根據公式ti=α·T·ti-1+(1-α)·d進行迭代運算,直到ti收斂或者達到最大的迭代次數m,其中α是衰減系數,用來作平滑處理,最終輸出的t即為類簇Wsi的TrustRank得分向量t,根據其元素即可確定每個網頁的TrustRank得分值,即特征T2。
7.根據權利要求1所述的基于可信網頁資源的知識圖譜構建方法,其特征在于,步驟6中,隨機選取網頁進行可信度標注,即標注網頁信息的準確性,準確則標記為1,否則標記為0。
8.根據權利要求1所述的基于可信網頁資源的知識圖譜構建方法,其特征在于,步驟6中,采用的識別模型包括決策樹或邏輯回歸模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院電子學研究所蘇州研究院,未經中國科學院電子學研究所蘇州研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010107687.4/1.html,轉載請聲明來源鉆瓜專利網。





