[發明專利]一種基于規則與深度學習的知識抽取方法在審
| 申請號: | 201810505732.4 | 申請日: | 2018-05-24 |
| 公開(公告)號: | CN108959375A | 公開(公告)日: | 2018-12-07 |
| 發明(設計)人: | 孟濤;李佳靜 | 申請(專利權)人: | 南京網感至察信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/04 |
| 代理公司: | 南京源古知識產權代理事務所(普通合伙) 32300 | 代理人: | 鄭宜梅 |
| 地址: | 210001 江蘇省南京市秦淮區光華*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 知識抽取 評價標準 取出 文本 機器學習 生成規則 專家定義 冷啟動 預設 學習 標注 匹配 抽取 評判 重復 | ||
本發明涉及一種基于規則與深度學習的知識抽取方法,包括以下步驟:一專家定義概念并對概念之間的關系進行定義并生成規則。二將生成的規則進行知識抽取,抽取出匹配概念和概念之間關系的文本。三將步驟二中抽取出的文本,利用深度學習方法進行訓練;從而得到更多的概念和概念之間的關系。四將步驟三中得到的更多的概念和概念之間的關系,進行知識抽取,并將該抽取的結果進行標注;并對知識抽取時的精確率、召回率和F1值進行評判;所述精確率、召回率和F1值作為評價標準。五重復步驟三和步驟四,直至所述評價標準達到預設的標準。本方法能解決機器學習的冷啟動問題,也能夠得到未知的概念和概念間的關系,能夠提高知識抽取的召回率。
技術領域
本發明涉及文本挖掘與信息抽取的技術領域,具體涉及一種基于規則與深度學習的知識抽取方法。
背景技術
知識抽取是指從數字資源中識別、發現和提取出概念、類型、事實及其相關關系、約束規則,以及行問題求解的步驟、規則的過程。目前針對文本的知識抽取技術大致可以分為兩類:機器學習方法或基于規則的方法。機器學習方法經常需要大量的訓練語料,并且使用復雜的、難以解釋的模型。機器學習和自然語言處理技術,可以用來實現監督分類,產生模型,語義分析,詞性標注等。其他的工作還包括使用馬爾可夫邏輯網絡(MLN),隱馬爾科夫模型(HMM)和條件隨機場(CRF)等,例如將輸入語句映射為標記序列。這些方法需要大量的訓練數據,難以解決冷啟動的問題。
規則的方法可以提供清晰、容易理解的特定域的語言,但是通常很費時費力。規則方法通常依賴于領域專家定義的規則。常見的基于規則的方法包括包裝器方法,這些系統需要學習提取目標周圍的分割符,這使得它們只能分析特定結構的文檔,例如DOM結構的文檔。雖然基于規則的方法精確率較高,但通常存在召回率較低的問題。
發明內容
1、所要解決的技術問題:
本發明的目的在于提供一種基于規則與深度學習的知識抽取方法,本方法是將知識抽取中的規則方法和深度學習方法融合,以克服單一方法的缺點,獲得更好的抽取結果。本發明首先使用少量的規則對概念和概念的關系進行定義,抽取生成訓練語料,進一步從這些語料中學習,以解決機器學習的冷啟動問題,同時解決規則方法召回率較低的缺點。
2、技術方案:
一種基于規則與深度學習的知識抽取方法,包括以下步驟:步驟一:專家定義所屬定義域中的概念和概念間的關系進行定義;并使用包含上下文計算符和布爾關系計算符的生成文法描述概念和概念之間的關系的規則。
步驟二:基于步驟一中生成的規則進行知識抽取,抽取出匹配概念和概念之間關系的文本。
步驟三:基于步驟二中抽取出的匹配概念和概念之間關系的文本,對深度學習方法進行訓練;從而得到更多的概念和概念之間的關系。
步驟四:基于步驟三中得到的更多的概念和概念之間的關系,進行知識抽取,并對該抽取的結果進行標注;并對知識抽取時的精確率、召回率和F1值進行評判;所述精確率、召回率和F1值作為評價標準。
步驟五:重復步驟三和步驟四,直至所述評價標準達到預設的標準。
進一步地,所述步驟一中的上下文環境計算符號包括但不限于:“SENT”:作用域內的所有概念必須出現在一條語句中;“DIST_n”:作用域內的任何兩個相鄰概念之間的距離不能大于n;“ORD”:作用域內的所有概念順序出現;“CONT”:作用域內的所有概念相鄰。所述布爾關系計算符號包括:“AND”:作用域中的所有字句必須同時在輸入文本中出現;“OR”:作用域中的所有字句至少有有一個在輸入文本中出現;“NOT”:作用域中的字句不能出現,否則輸入文本不匹配。
進一步地,所述步驟一中使用包含上下文計算符和布爾關系計算符的生成文法是基于TML語言實現。
進一步地,所述步驟二中的知識抽取是基于TML語言實現。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京網感至察信息科技有限公司,未經南京網感至察信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810505732.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據存儲方法、裝置及電子設備
- 下一篇:一種數據處理方法及裝置





