[發明專利]一種面向多源網絡百科的知識庫構建方法有效
| 申請號: | 201710236165.2 | 申請日: | 2017-04-12 |
| 公開(公告)號: | CN107239481B | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 韓喆;馮巖松;賈愛霞;趙東巖 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958;G06F16/35;G06F16/36 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 網絡 百科 知識庫 構建 方法 | ||
1.一種面向多源網絡百科的知識庫構建方法,其步驟為:
1)從設定的若干網絡百科抓取頁面,并從抓取的每一頁面中抽取頁面的類別信息;
2)基于所述類別信息構建類別樹,并將類別信息和類別樹對應,形成知識庫的類別體系;提取每個網絡百科對應頁面的的別名信息構建該網絡百科的概念詞典;
3)對抓取的頁面進行去重,將得到的無重復的頁面集合作為知識庫的概念集合;
4)從所述頁面集合中每一頁面的頁面信息框和正文中抽取三元組信息;
5)將所述三元組中的客體轉換成標準格式,然后根據得到的標準化三元組和類別體系建立面向多源網絡百科的知識庫。
2.如權利要求1所述的方法,其特征在于,生成所述類別體系的方法為:
21)計算每一類別信息的分數,取分數靠前或大于設定閾值的多個類別信息構成一類別集合;
22)對于該類別集合中的每一類別信息,根據類別信息Ci在網絡百科的類別有向圖中與類別信息Cj的上下級關系,在類別信息Ci的類別樹上對Ci、Cj進行標記,生成所述類別樹;如果類別信息Ci不在網絡百科的類別有向圖中,則對類別信息Ci進行分詞后取最長連續后綴并將其映射到所述類別樹上,生成知識庫的類別體系。
3.如權利要求2所述的方法,其特征在于,所述類別信息Ci的分數為Conf(Ci)=Freq(Ci)*Std(Ci);其中,Freq(Ci),Std(Ci)分別表示類別信息Ci的頻率分數和標準化程度分數;Cnt(Ci)表示Ci在所有頁面抽取結果中的出現頻率,k為一設定平滑參數值;如果Ci是維基百科的類別名字,則isCate(Ci)為1,否則為0;WCnt(Ci)表示Ci分詞之后的單詞數量,其中Suf(Ci)表示Ci分詞之后的連續后綴集合,xij是Ci分詞之后的一連續后綴,WCct(xij)表示xij分詞之后的單詞數量。
4.如權利要求1或2或3所述的方法,其特征在于,對抓取的頁面進行去重的方法為:從同一概念詞典中選取兩個具有相同別名信息的頁面Di,Dj,并計算二者相似度;如果相似度大于設定閾值,則刪除頁面信息較少者。
5.如權利要求4所述的方法,其特征在于,計算所述相似度的公式為:isDup(Di,Dj)=α*ContextSim(Di,Dj)+(1-α)*CateSim(Di,Dj);其中,α,γ為比例系數,表示頁面Di的關鍵詞列表,表示頁面Dj的關鍵詞列表,depthT(t)表示類別t在所述類別體系中的深度,Ti表示頁面Di的類別集合,Tj表示頁面Dj的類別集合。
6.如權利要求1或2或3所述的方法,其特征在于,所述三元組包括頁面信息框中的(屬性名,屬性值)對和頁面對應的實體,該實體為三元組的主語。
7.如權利要求1或2或3所述的方法,其特征在于,將所述三元組中的客體轉換成標準格式的方法為:構造多種類別標準化轉換器,對于每一三元組,匹配查找對應類別標準化轉換器,將其轉換成標準化格式;如果該三元組為實體類三元組或者沒有對應類別標準化轉換器,則先通過概念詞典找到該三元組的客體oi的實體候選集合然后計算實體候選集合中每個實體候選的相似度,如果相似度都低于設定閾值,則不對該三元組進行標準化轉換,否則,取相似度最高的實體鏈接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710236165.2/1.html,轉載請聲明來源鉆瓜專利網。





