[發明專利]一種基于自然語言處理的層次化專題屬性抽取方法有效
| 申請號: | 201811005109.9 | 申請日: | 2018-08-30 |
| 公開(公告)號: | CN109145089B | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 梁勇奇;楊瑞霞;耿同 | 申請(專利權)人: | 中國科學院遙感與數字地球研究所 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/36 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100094*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 處理 層次 專題 屬性 抽取 方法 | ||
1.一種基于自然語言處理的層次化專題屬性抽取方法,包括以下步驟:
1)將英文百科類介紹頁面結構化,清洗并句子化,形成總句子語料庫;
2)從總句子語料庫中隨機抽取部分句子,標注其中含有某專業領域屬性的句子,形成句子層的語料庫——屬性句子語料庫;
3)按照7:3的比例,將屬性句子語料庫劃分為訓練庫和檢驗庫,訓練并檢驗隨機森林分類器;
4)使用訓練好的隨機森林分類器對步驟1)中的總句子語料庫分類,獲得屬性句子庫;
5)使用文檔主題生成模型獲取屬性句子庫中的主題詞,標注該專業領域知識的各類型屬性詞,形成詞語層的語料庫——屬性詞語料庫;
6)將英文百科類介紹頁面詞語化,根據屬性詞語料庫,規則匹配抽取專題屬性信息。
2.根據權利要求1所述的基于自然語言處理的層次化專題屬性抽取方法,其特征在于:所述步驟1)進一步包括:
1.1)使用標題和段落的結構,濾除百科介紹頁面中的目錄、相關鏈接、擴展閱讀、參考等冗余信息,形成結構化的網頁文檔;
1.2)使用Python庫中的nltk自然語言處理包清洗,并句子化網頁文檔,形成總句子庫,其中清洗部分包括去特殊符號和詞性還原。
3.根據權利要求2所述的基于自然語言處理的層次化專題屬性抽取方法,其特征在于:所述步驟2)進一步包括:
2.1)隨機抽取1/5的句子,根據句子中是否含有專業領域所需的屬性信息,逐條人工標注為屬性句子語料庫, 至此,完成第一個層次的語料庫構建。
4.根據權利要求3所述的基于自然語言處理的層次化專題屬性抽取方法,其特征在于:所述步驟3)進一步包括:
3.1)從屬性句子庫中隨機選取1/5、2/5、3/5、4/5的句子,按照7:3的比例劃分為訓練庫和檢驗庫;
3.2)分別使用BOW模型(Bag of word)、TF-IDF模型(Term frequency–inversedocument frequency)、FH模型(feature hashing)將3.1)中的屬性句子語料訓練庫和檢驗庫中的句子轉換為詞向量;
3.3)從Python庫的scikit-learn機器學習包中調用12種分類器的函數,使用3.2)中的訓練庫和檢驗庫的詞向量訓練和檢驗,得到共計4×3×12種組合的結果。
5.根據權利要求4所述的基于自然語言處理的層次化專題屬性抽取方法,其特征在于:所述步驟4)進一步包括:
4.1)選取3.3)中分類結果最優的隨機森林分類器,對1.2)中的總句子庫分類,得到屬性句子總語料庫。
6.根據權利要求5所述的基于自然語言處理的層次化專題屬性抽取方法,其特征在于:所述步驟5)進一步包括:
5.1)使用Python庫中gensim文檔主題分析包提供的主題分析模型LSI(Latentsemantic indexing)、LDA(Latent Dirichlet allocation)和Scikit-learn機器學習包提供的主題分析模型LDA(Latent Dirichlet allocation)、NMF(Non-negative matrixfactorization),設置不同的主題數量,分別對4.1)中的屬性句子總語料庫進行主題分析,在每個確定的主題數量下,對比這4種分析模型的結果,最后選定的關鍵詞庫為gensim提供的LDA模型和scikit-learn提供的NMF模型分析得到的關鍵詞庫的并集;
5.2)根據該專業領域的專題,從步驟5.1)主題分析模型(LDA和NMF)獲得的關鍵詞庫中,人工標注相關的屬性信息詞,按照專業鄰域的知識劃分類型,形成屬性詞語料庫, 至此,完成第二個層次的語料庫構建。
7.根據權利要求6所述的基于自然語言處理的層次化專題屬性抽取方法,其特征在于:所述步驟6)進一步包括:
6.1)使用Python庫中的nltk自然語言處理包清洗,并詞語化步驟1.1)中結構化的網頁文檔,其中清洗包括去停頓詞、去特殊符號和詞性還原,形成詞語總庫;
6.2)使用步驟5.2)中的屬性詞語料庫,在步驟6.1)中的詞語總庫規則匹配,完成該專題屬性信息的抽取,形成專業領域的屬性信息數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院遙感與數字地球研究所,未經中國科學院遙感與數字地球研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811005109.9/1.html,轉載請聲明來源鉆瓜專利網。





