[發明專利]一種面向在線百科的實體屬性抽取方法及系統有效
| 申請號: | 201410065743.7 | 申請日: | 2014-02-26 |
| 公開(公告)號: | CN103853823B | 公開(公告)日: | 2017-01-18 |
| 發明(設計)人: | 程學旗;賈巖濤;張澤慧;王元卓;馮凱;熊錦華;許洪波 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司11280 | 代理人: | 王勇,李科 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 在線 百科 實體 屬性 抽取 方法 系統 | ||
技術領域
本發明涉及信息技術領域,尤其涉及一種面向在線百科的實體屬性抽取方法及系統。
背景技術
在線百科,又稱網絡百科,是在互聯網上公開給網友查閱的百科全書,網絡百科有開放和非開放兩種。用戶可以利用在線百科及時方便地查詢各種信息資源。同時由于網民參于開放百科的建設,在線百科的信息更加開放透明,更豐富完善。著名的開放網絡百科有:維基百科、大眾百科、百度百科、互動百科等等。
在線百科用于描述各類實體供用戶查詢。實體是指現實世界中的客觀事物,是現實世界中任何可區分、可識別的事物。實體不僅可以指能觸及的客觀對象,還可以指抽象的事件。實體屬性是指實體的一些基本特征特性,實體屬性有助于人們全面、客觀地了解實體,實體屬性越多對該實體的描述就越詳細,因此實體屬性抽取有著重要意義。
在線百科對于實體的描述全面且詳細,在線百科中的實體與其對應的描述頁面之間有著一對一的關系。此外,在線百科的頁面結構有一定的規律,每個實體頁面都有其獨立的對實體屬性進行描述的部分,而且實體屬性描述部分往往是半結構化的文本,便于抽取。目前,主要使用基于規則(模板)的方法來抽取在線百科的實體屬性。然而,由于每一種在線百科的文本結構不同,用于抽取每一種在線百科的實體屬性的規則也各不相同,因此現有的實體屬性抽取方法往往僅針對某一在線百科,并不能適用于其他在線百科。
發明內容
為解決上述問題,本發明提供一種面向在線百科的實體屬性抽取方法,所述方法包括:
步驟1)、在待抽取的在線百科網頁文本集合T中選擇一個頁面,抽取該頁面的實體屬性表達規則,得到當前規則集合;
步驟2)、使用當前規則集合對所述待抽取的在線百科網頁文本集合T進行實體屬性抽取,并且根據抽取得到的實體屬性抽取T的實體屬性表達規則,用抽取得到的規則集合作為當前規則集合并重復這一過程k次,得到最終規則集合;其中k為非負整數;
步驟3)、使用所述最終規則集合對T進行實體屬性抽取。
在一個實施例中,步驟1)包括:
步驟11)、在待抽取的在線百科網頁文本集合T中選擇一個頁面;
步驟12)、標注該頁面的實體屬性,得到實體屬性集合U;
步驟13)、根據實體屬性集合U,抽取該頁面的實體屬性表達規則,得到規則集合R。
在一個實施例中,步驟13)還包括:
根據實體屬性表達規則在所述頁面中出現的位置,對R中的每條實體屬性表達規則賦權重;其中,出現在所述頁面中屬性描述部分的實體屬性表達規則的權重大于出現在所述頁面中非屬性描述部分且沒有出現在屬性描述部分的實體屬性表達規則的權重。
在一個實施例中,步驟2)包括:
步驟21)、使用規則集合R對所述待抽取的在線百科網頁文本集合T進行實體屬性抽取;
步驟22)、根據實體屬性在頁面中出現的位置以及抽取出該實體屬性的實體屬性表達規則的權重,從抽取得到的實體屬性得到實體屬性集合U';
步驟23)、根據實體屬性集合U'抽取T的實體屬性表達規則,得到規則集合R';
步驟24)、將R更新為R'并返回步驟21)直到該過程重復了k次,得到最終規則集合;其中k為非負整數。
在一個實施例中,步驟22)包括:
步驟a)、根據實體屬性在頁面中出現的位置以及抽取出該實體屬性的實體屬性表達規則的權重,對該實體屬性賦權重;
步驟b)、選擇權重值最高的n個實體屬性,得到實體屬性集合U';其中n為正整數。
在進一步的實施例中,步驟a)包括:
將出現在頁面中屬性描述部分的實體屬性賦權重α1*β;以及
將出現在頁面中非屬性描述部分且沒有出現在屬性描述部分的實體屬性賦權重α2*β;
其中,β為抽取出該實體屬性的實體屬性表達規則的權重,且α2<α1。
在一個實施例中,步驟22)還包括:將實體屬性集合U合并到U'。
在進一步的實施例中,步驟24)還包括:在返回步驟21)時,將U更新為U'。
在一個實施例中,步驟23)還包括:
根據實體屬性表達規則在頁面中出現的位置,對規則集合R'中的每條實體屬性表達規則賦權重;其中,出現在頁面中屬性描述部分的實體屬性表達規則的權重大于出現在頁面中非屬性描述部分且沒有出現在屬性描述部分的實體屬性表達規則的權重。
在進一步的實施例中,步驟24)還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410065743.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:便攜式鋼架椅
- 下一篇:一種數據處理方法及系統





