[發明專利]一種基于自然語言處理的層次化專題屬性抽取方法有效
| 申請號: | 201811005109.9 | 申請日: | 2018-08-30 |
| 公開(公告)號: | CN109145089B | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 梁勇奇;楊瑞霞;耿同 | 申請(專利權)人: | 中國科學院遙感與數字地球研究所 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/36 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100094*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 處理 層次 專題 屬性 抽取 方法 | ||
本發明公布了一種基于自然語言處理的層次化專題屬性抽取方法,旨在解決較少文本量,多屬性類型情況下完整專題信息抽取的難題,包括以下步驟:將英文百科類介紹頁面結構化,清洗并句子化,形成總句子語料庫;從總句子語料庫中隨機抽取部分句子,標注其中含有某專業領域屬性的句子,形成句子層的語料庫;按照7:3的比例,將屬性句子語料庫劃分為訓練庫和檢驗庫,訓練并檢驗隨機森林分類器;(4)使用訓練好的隨機森林分類器對總句子語料庫分類,獲得屬性句子庫;使用文檔主題生成模型(LDA和NMF)獲取屬性句子庫中的主題詞,標注該專業領域知識的各類型屬性詞,形成詞語層的語料庫;將介紹頁面詞語化,根據屬性詞語料庫,抽取專題屬性信息。
技術領域
本發明屬文本特征提取和屬性抽取領域,具體為一種基于自然語言處理的層次化專題屬性抽取方法。
背景技術
在信息爆炸的時代,從海量的互聯網數據中挖掘有價值的信息,成為科學研究的重點。大數據不在于體量的大,而在于能支撐專業的研究。在專業領域,面對的實體往往有限,而屬性類型多;不同實體的介紹文本內容含有冗余信息;各類型屬性信息的數量差異較大。先前的屬性抽取方法主要針對萬條,甚至百萬條的數據,在該量級下,能訓練得到較好的機器學習模型,有效地抽取屬性信息,而在某些專業領域中,當文本量較少,各類型的屬性信息數量差異較大時,難以將這些模型訓練到較好的結果。因此,如何從較少的文本量中抽取出該實體多個類型的屬性信息,為該實體的研究提供基礎,需要一種新的方法。
常用的信息提取方法有基于條件隨機場(Conditional Random Fields)、基于深度學習(Deep Learning)、基于卷積神經網絡(Convolutional Neural Network)、基于遺傳學算法(Genetic Algorithms)、基于規則的方法(Rule-based)等。由于針對某個專業領域的實體,特別是地理實體,會出現數量在萬級以下的情況。另外,該實體集包含的屬性類型較多,不同屬性類型關鍵詞出現的頻率差異較大,導致某些屬性關鍵詞能標注的語料庫量會很少,而前四種方法使用的正是上述的機器學習模型。因此,本發明最終選擇基于規則的方法來抽取各屬性信息。
使用傳統的標注輔助手段(如,詞性標注(POS),分塊(Chunk))標注屬性詞語料庫時,關鍵詞出現次數較少的屬性類型無標注。為了能將這部分屬性關鍵詞標注出來,本發明采用層次化的方法,先標注句子層的屬性語料庫,將無關屬性信息的句子去掉,再對含有屬性的句子做主題分析,最后對主題分析的結果——各主題的關鍵詞進行標注,構建更加完整的屬性關鍵詞庫。本發明通過兩步標注語料庫的方式,實現了屬性詞的逐步析出,在較少標注量的同時,也滿足在較少的文本量,多屬性類型條件下更為完整的信息抽取。
發明內容
本發明旨在解決較少的文本量,多屬性類型情況下完整專題信息抽取的困難。其通過自然語言處理的流程,采用層次化的標注方式,對英文百科類(如Wikipedia)介紹中包含的某專業領域的多類型屬性進行了自動提取。其不僅提供一套更高效完整的信息提取流程和專業領域的屬性數據集。同時,建立的網頁文檔結構,方便后續的其它語義分析;標注的屬性句子語料庫和屬性詞語料庫也能用于該專業領域其它實體介紹的分類和屬性信息提取。
本發明公布了一種基于自然語言處理的層次化專題屬性抽取方法,其步驟如下:
(1)將英文百科類(如:Wikipedia)介紹頁面結構化,清洗并句子化,形成總句子語料庫;
(2)從總句子語料庫中隨機抽取部分句子,標注其中含有某專業領域屬性的句子,形成句子層的語料庫——屬性句子語料庫;
(3)按照7:3的比例,將屬性句子語料庫劃分為訓練庫和檢驗庫,訓練并檢驗隨機森林分類器;
(4)使用訓練好的隨機森林分類器對步驟1)中的總句子語料庫分類,獲得屬性句子庫;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院遙感與數字地球研究所,未經中國科學院遙感與數字地球研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811005109.9/2.html,轉載請聲明來源鉆瓜專利網。





