[發明專利]一種聯合信息抽取方法及裝置有效
| 申請號: | 201911416984.0 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111143691B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 周興發;孫銳 | 申請(專利權)人: | 四川長虹電器股份有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/33;G06F40/30;G06N3/0464;G06N3/0442 |
| 代理公司: | 成都虹橋專利事務所(普通合伙) 51124 | 代理人: | 吳中偉 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聯合 信息 抽取 方法 裝置 | ||
本發明屬于數據挖掘和信息抽取領域,其公開了一種聯合信息抽取方法及裝置,解決傳統信息抽取技術存在的依賴于專家的先驗知識和特征抽取工具的性能,以及信息目標抽取的錯誤會影響目標間語義關系判斷的問題。該裝置包括:編碼初始化模塊,用于對數據、預定義關系類型和目標類型進行語義編碼初始化;編碼交互模塊,用于數據語義編碼序列和關系類型語義編碼序列以及目標類型語義編碼序列間的編碼相互交互;編碼融合模塊,用于數據語義編碼序列和關系類型編碼序列的融合,以及數據語義編碼序列和目標類型編碼序列的融合;關系預測模塊,用于對得到的數據語義編碼預測蘊含的關系類型;目標預測模塊,用于預測與數據蘊含的關系類型相對應的第一目標和第二目標。
技術領域
本發明屬于數據挖掘和信息抽取領域,尤其涉及一種聯合信息抽取方法及裝置。
背景技術
隨著互聯網的高速發展以及信息的大量累積,人們對如何快速自動抽取信息中隱含的知識的需求越來越迫切,特別是自然語言處理領域中的文本結構信息抽取功能。信息抽取功能不僅可以使我們快速了解數據源中隱含的局部信息結構脈絡,還可以整合和鏈接多個數據源中抽取的信息,從全局了解整個信息結構,從而為其它任務如輿情預警,智能聊天系統,知識圖譜構建,知識推理等任務提供輸入數據源或者輔助信息。
信息抽取的目的是發現數據源中需要關注的目標同時識別出哪些目標間具有語義關系。目前,信息抽取主流方法有基于模板的方法、基于統計的方法和基于表示的方法等三類。
基于模板的方法通常根據數據源的特點由專家制定相應的規則和模板,然后采用模式匹配的方法抽取信息。這種方法的優點是精確率高,缺點是通常召回率很低,它只能抽取識別出制定出的模板范圍內的信息結構,同時嚴重依賴于專家的先驗知識,費時費力。
基于統計的方法通常根據數據源的特點抽取特征信息,如文本處理領域中的詞性,依存解析,n-gram特征等,然后采用統計學習方法抽取信息結構。這種方法優點是可以自動的抽取特征然后采用統計學習方法學習并自動抽取信息結構。該方法避免了基于模板方法中需要專家制定規則和模板的缺陷,然而抽取效果嚴重依賴于特征抽取的工具性能。
基于表示的方法通常直接對數據源的數據劃分單元進行初始化編碼,然后采用卷積神經網絡,長短時記憶網絡等神經網絡方法對數據源進行進一步的語義編碼。針對學習得到的語義編碼,采用pipeline的方式首先抽取信息目標,再判斷目標間具有的語義關系。該方法不僅避免了專家制定規則模板的限制,同時也避免了特征選取和依賴特征抽取工具的缺陷。由于該方法采用pipeline的抽取方式,忽略了信息目標抽取和目標間語義關系判斷兩者間的聯系,同時信息目標抽取的錯誤將向后傳播使后者引入了更多的錯誤信息,從而影響目標間語義關系判斷。
發明內容
本發明所要解決的技術問題是:提出一種聯合信息抽取方法及裝置,解決傳統信息抽取技術存在的依賴于專家的先驗知識和特征抽取工具的性能,以及信息目標抽取的錯誤會影響目標間語義關系判斷的問題。
本發明解決上述技術問題采用的技術方案是:
一方面,本發明提供了一種聯合信息抽取方法,包括以下步驟:
A、初始化數據、預定義關系類型和目標類型的語義編碼序列;
B、根據數據和預定義關系的初始化語義編碼序列,進行相互交互,獲得帶有關系類型信息的數據語義編碼序列和帶有數據信息的關系類型語義編碼序列;
C、使用帶有關系類型信息的數據語義編碼序列進行信息的前向傳播,預測得到數據中蘊含的關系類型;
D、根據預測得到的關系類型、帶有數據信息的關系類型語義編碼序列和帶有關系類型信息的數據語義編碼序列,得到關系類型加強后的數據語義編碼序列;
E、根據關系類型加強后的數據語義編碼序列和預定義的目標類型初始化語義編碼序列,進行相互交互,得到帶有目標類型信息的數據語義編碼序列和帶有數據信息的目標類型語義編碼序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川長虹電器股份有限公司,未經四川長虹電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911416984.0/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





