[發明專利]一種面向開放網頁的實體屬性抽取方法和系統有效

申請號：	201510071993.6	申請日：	2015-02-11
公開（公告）號：	CN104636466B	公開（公告）日：	2020-07-31
發明（設計）人：	程學旗;賈巖濤;趙澤亞;王元卓;靳小龍;熊錦華;李曼玲;林海倫;許洪波	申請（專利權）人：	中國科學院計算技術研究所
主分類號：	G06F16/36	分類號：	G06F16/36;G06F16/35
代理公司：	北京泛華偉業知識產權代理有限公司 11280	代理人：	王勇;李科
地址：	100190 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種面向開放網頁實體屬性抽取方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供一種面向開放網頁的實體屬性抽取方法和系統。其中，所述方法包括：提取開放網頁的文本，從中獲得目標實體的候選文本集合；以及，根據目標實體屬性在訓練文本集合中出現的頻率，選擇基于規則的方式或者基于統計的方式從所述候選文本集合中抽取目標實體屬性的值。本發明能夠提高開放網頁實體屬性抽取的準確率和召回率，并且不依賴于網頁結構，能夠適應開放網頁類型的變化。

技術領域

本發明涉及數據挖掘技術領域，特別地，涉及一種面向開放網頁的實體屬性抽取方法和系統。

背景技術

開放網頁是指數據源不固定、包含多種網絡數據的非結構化互聯網網頁，如博客、論壇、新聞、聊天記錄、電子郵件等，其信息的性質和量值出現的位置不固定，所有內容都是不可預知的。隨著網絡技術的發展，特別是Internet和Intranet技術的飛快發展，開放網頁以其結構靈活的自身特點，在數量快速增大的同時，也為其文本理解帶來困難：

1、文本結構不固定，沒有特定的上下文語法；

2、關鍵詞范圍不固定，涉及的學科領域多樣；

3、文本長度不固定，上下文信息量差距較大；

4、數據源不固定，語言現象復雜。

實體是指客觀存在并可相互區別的事物，可以是具體的客觀對象，也可以是抽象的事件。實體屬性是指實體本身的性質，實體屬性抽取通過將不同信息源對于某一實體的屬性集中起來，從不同的角度反映這個實體的相關情況，完善對該實體的認識，在信息抽取、事件跟蹤、人名消歧等研究中有著重要作用，并且已成為文本理解的關鍵技術。

針對開放網頁的特點，傳統的實體屬性抽取方法在以下方面存在限制：

第一、開放網頁的文本結構不固定，實體及其描述沒有固定規律可循，且多數在自由文本中，不易抽取分析；

第二、傳統的面向規則的屬性抽取方法，規則定義死板，過于依賴上下文語法，且匹配效率低下；

第三、開放網頁的數據源不固定，語言現象復雜，普通規則難以涵蓋，傳統的基于規則的屬性抽取不支持規則的嵌套匹配；

第四、傳統的基于統計的實體屬性抽取方法，訓練數據的準備過于依賴人工，效率不高，且準確率和召回率較低；

第五、傳統的屬性抽取多局限在某個領域或學科里面進行，不能將系統直接移植到其他領域或學科進行使用，缺乏具有通用性的關聯特征，不易移植和擴展。

發明內容

為解決上述問題，根據本發明的一個實施例，提供一種面向開放網頁的實體屬性抽取方法，包括：

步驟1)、提取開放網頁的文本，從中獲得目標實體的候選文本集合；

步驟2)、根據目標實體屬性在訓練文本集合中出現的頻率，選擇基于規則的方式或者基于統計的方式從所述候選文本集合中抽取目標實體屬性的值。

上述方法中，步驟1)包括：

步驟11)、從開放網頁中提取出非結構化文本，對該非結構化文本進行分詞，得到詞與所述非結構化文本之間的相關度；