[發明專利]一種基于句子檢索模式的屬性抽取方法有效
| 申請號: | 202010025572.0 | 申請日: | 2020-01-10 |
| 公開(公告)號: | CN111241827B | 公開(公告)日: | 2022-05-20 |
| 發明(設計)人: | 喬馳;段飛虎;印東敏;陳鋒濤;蔡鄖;馮自強;李云鵬;戴鐵成;張宏偉 | 申請(專利權)人: | 同方知網(北京)技術有限公司;同方知網數字出版技術股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/211;G06F40/242;G06F16/31;G06F16/33 |
| 代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 王澤云 |
| 地址: | 100084 北京市海淀區清華園清華*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 句子 檢索 模式 屬性 抽取 方法 | ||
本發明公開了一種基于句子檢索模式的屬性抽取方法,該包括:將語料進行預處理,把需要的語料數據導入到語料庫;從語料庫中或詞典或概念模型中的語料數據中抽取語句,并將所需語句組成樣本集;采用HanLP句法依存分析器對抽取的語句樣本集進行分詞和詞性標注;采用過濾規則對詞性標注的結果集進行過濾,并產生三元屬性即:實體屬性、關系屬性以及實體與實體之間的屬性,并得到每一句話的三元組屬性集合;對三元組屬性集合進行聚合,并將聚合得到的屬性集合保存到數據庫。本發明提高了關系抽取的效率,減少了人力物力等資源的浪費,解決了現有關系抽取技術的不足之處。
技術領域
本發明涉及自然語言數據處理技術領域,尤其涉及一種基于句子檢索模式的屬性抽取方法。
背景技術
關系抽取是信息抽取的重要子任務,其主要目的是將非結構化或半結構化描述的自然語言文本轉化成結構化數據,關系抽取主要負責從文本中識別出實體,抽取實體間的語義關系?,F有主流關系抽取技術分為有監督關系抽取,無監督關系抽取,和半監督關系抽取三種方法。主要介紹有監督學習方法。
有監督的學習方法將關系抽取任務當做分類問題,根據訓練數據設計有效的特征,從而學習各種分類模型,然后使用訓練好的分類器預測關系。有監督的學習方法是目前關系抽取較為主流也是表現最好的方法,但其最大的缺點就是需要大量的人工標注語料。如何獲得大量的有標注語料就成為了我們工作的重點,遠程監督方法就由此孕育而生。遠程監督方法,將已有的知識庫對應到豐富的非結構化數據中,從而生成大量的訓練數據,進而達到關系的抽取。但是其也存在著非常明顯的缺點:大量的數據必然存在著準確率問題,有些數據并不是我們期望的,如何解決從大量數據中準確的抽取出我們期望的數據,進而準確的抽取出屬性是我們工作的一個重點。
發明內容
為解決上述技術問題,本發明的目的是提供一種基于句子檢索模式的屬性抽取方法。該方法基于句子檢索模式的屬性抽取檢索方法實現了從大量無結構化中文文本中抽取出一批句子樣本集合,然后從這批樣本句子中挑選我們覺得貼近我們所需要抽取的屬性集合的句子,之后通過依存句法分析得到相應的詞性,采用過濾規則生成屬性三元組,存入數據庫。
本發明的目的通過以下的技術方案來實現:
一種基于句子檢索模式的屬性抽取方法,包括:
A將語料進行預處理,把需要的語料數據導入到語料庫;
B從語料庫中或詞典或概念模型中的語料數據中抽取語句,并將所需語句組成樣本集;
C采用HanLP句法依存分析器對抽取的語句樣本集進行分詞和詞性標注;
D采用過濾規則對詞性標注的結果集進行過濾,產生三元組屬性,并得到每一句話的三元組屬性集合;
E對三元組屬性集合進行聚合,并將聚合得到的屬性集合保存到數據庫。
與現有技術相比,本發明的一個或多個實施例可以具有如下優點:
提高了關系抽取的效率,減少了人力物力等資源的浪費,解決了現有關系抽取技術的不足之處。
附圖說明
圖1是基于句子檢索模式的屬性抽取方法流程圖;
圖2是語料按關系抽取后的句子圖例;
圖3是依據句法分析語料圖例;
圖4是依據句法分析語料樹形圖;
具體實施方式
為使本發明的目的、技術方案和優點更加清楚,下面將結合實施例及附圖對本發明作進一步詳細的描述。
如圖1所示,為基于句子檢索模式的屬性抽取方法流程,包括以下步驟:
步驟10將語料進行預處理,把需要的語料數據導入到語料庫;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網(北京)技術有限公司;同方知網數字出版技術股份有限公司,未經同方知網(北京)技術有限公司;同方知網數字出版技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010025572.0/2.html,轉載請聲明來源鉆瓜專利網。





