[發明專利]一種面向開放網頁的實體屬性抽取方法和系統有效
| 申請號: | 201510071993.6 | 申請日: | 2015-02-11 |
| 公開(公告)號: | CN104636466B | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 程學旗;賈巖濤;趙澤亞;王元卓;靳小龍;熊錦華;李曼玲;林海倫;許洪波 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇;李科 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 開放 網頁 實體 屬性 抽取 方法 系統 | ||
本發明提供一種面向開放網頁的實體屬性抽取方法和系統。其中,所述方法包括:提取開放網頁的文本,從中獲得目標實體的候選文本集合;以及,根據目標實體屬性在訓練文本集合中出現的頻率,選擇基于規則的方式或者基于統計的方式從所述候選文本集合中抽取目標實體屬性的值。本發明能夠提高開放網頁實體屬性抽取的準確率和召回率,并且不依賴于網頁結構,能夠適應開放網頁類型的變化。
技術領域
本發明涉及數據挖掘技術領域,特別地,涉及一種面向開放網頁的實體屬性抽取方法和系統。
背景技術
開放網頁是指數據源不固定、包含多種網絡數據的非結構化互聯網網頁,如博客、論壇、新聞、聊天記錄、電子郵件等,其信息的性質和量值出現的位置不固定,所有內容都是不可預知的。隨著網絡技術的發展,特別是Internet和Intranet技術的飛快發展,開放網頁以其結構靈活的自身特點,在數量快速增大的同時,也為其文本理解帶來困難:
1、文本結構不固定,沒有特定的上下文語法;
2、關鍵詞范圍不固定,涉及的學科領域多樣;
3、文本長度不固定,上下文信息量差距較大;
4、數據源不固定,語言現象復雜。
實體是指客觀存在并可相互區別的事物,可以是具體的客觀對象,也可以是抽象的事件。實體屬性是指實體本身的性質,實體屬性抽取通過將不同信息源對于某一實體的屬性集中起來,從不同的角度反映這個實體的相關情況,完善對該實體的認識,在信息抽取、事件跟蹤、人名消歧等研究中有著重要作用,并且已成為文本理解的關鍵技術。
針對開放網頁的特點,傳統的實體屬性抽取方法在以下方面存在限制:
第一、開放網頁的文本結構不固定,實體及其描述沒有固定規律可循,且多數在自由文本中,不易抽取分析;
第二、傳統的面向規則的屬性抽取方法,規則定義死板,過于依賴上下文語法,且匹配效率低下;
第三、開放網頁的數據源不固定,語言現象復雜,普通規則難以涵蓋,傳統的基于規則的屬性抽取不支持規則的嵌套匹配;
第四、傳統的基于統計的實體屬性抽取方法,訓練數據的準備過于依賴人工,效率不高,且準確率和召回率較低;
第五、傳統的屬性抽取多局限在某個領域或學科里面進行,不能將系統直接移植到其他領域或學科進行使用,缺乏具有通用性的關聯特征,不易移植和擴展。
發明內容
為解決上述問題,根據本發明的一個實施例,提供一種面向開放網頁的實體屬性抽取方法,包括:
步驟1)、提取開放網頁的文本,從中獲得目標實體的候選文本集合;
步驟2)、根據目標實體屬性在訓練文本集合中出現的頻率,選擇基于規則的方式或者基于統計的方式從所述候選文本集合中抽取目標實體屬性的值。
上述方法中,步驟1)包括:
步驟11)、從開放網頁中提取出非結構化文本,對該非結構化文本進行分詞,得到詞與所述非結構化文本之間的相關度;
步驟12)、獲得目標實體的上下文中距離該目標實體最近的一個或多個初始查詢擴展詞,將與目標實體及所述一個或多個初始查詢擴展詞相關度最高的一個或多個非結構化文本作為第一文本集合;
步驟13)、從所述第一文本集合中選擇詞頻最高的一個或多個二次查詢擴展詞,將與目標實體及所述一個或多個二次查詢擴展詞相關度最高的一個或多個非結構化文本作為第二文本集合;
步驟14)、將所述第一文本集合和所述第二文本集合的并集作為目標實體的候選文本集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510071993.6/2.html,轉載請聲明來源鉆瓜專利網。





