[發明專利]一種用于含噪稀疏文本的語義關系抽取方法有效
| 申請號: | 201910806205.1 | 申請日: | 2019-08-29 |
| 公開(公告)號: | CN110674642B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 趙翔;龐寧;譚真;郭愛博;殷風景;唐九陽;葛斌;肖衛東 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/211;G06F18/25;G06N3/0464;G06N3/084 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;張燕華 |
| 地址: | 410003 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 稀疏 文本 語義 關系 抽取 方法 | ||
本發明公開了一種用于含噪稀疏文本的語義關系抽取方法,包括以下步驟:建立訓練樣本集;構建語義關系抽取模型;訓練語義關系抽取模型;建立待抽取語義的數據集;利用訓練好的語義關系抽取模型從待抽取語義的數據集中提取語義關系。本發明方法采用不同的卷積神經網絡分別提取分詞序列和對應依存路徑的特征,避免了錯誤積累,比傳統基于特征和核的關系抽取方法,有明顯的效果提升;充分利用關系實例的兩種信息表示,通過特征融合層將二者有效結合,為準確預測目標實體對的語義關系提供更全面的信息;加入多實例學習方法,用于在樣本稀疏條件下的噪聲抑制,與注意力機制相比,該機制不存在欠擬合問題,更適合稀疏樣本下的語義關系抽取問題。
技術領域
本發明屬于中文文本語義關系抽取領域,具體涉及一種在含有噪聲的稀疏中文文本中進行實體語義關系抽取的方法。
背景技術
近年來,知識圖譜在一系列知識驅動的應用中發揮極其重要的作用,例如,機器翻譯、推薦系統和問答系統等,而關系抽取技術是知識圖譜自動構建的關鍵一環,具有重要的現實意義。關系抽取是通過理解非結構化文本所包含的語義信息,獲得標注實體對的語義關系的過程。當前,主流的關系抽取方法是基于有監督和遠程監督的關系抽取方法。
傳統的有監督關系抽取方法受自然語言處理工具中錯誤累積的影響,為了避免這一問題,神經網絡開始廣泛用于文本的嵌入表示,自動提取文本語義特征。監督方法需要明確的人工注釋文本,標注過程耗時耗力。為了解決這一問題,提出了一種替代范式,即遠程監督。該范式利用現有知識圖譜Freebase提供監督,啟發式地將文本與Freebase對齊,來生成大量弱注釋數據。很明顯,這種啟發式對齊方法會帶來噪聲數據,這會嚴重影響關系抽取器的性能。
為了解決錯誤的注釋問題,多實例學習方法被提出可以用來緩解遠程監督下的錯誤標注問題,另外,選擇性注意機制具有可訓練的參數,通過學習,擬合在噪聲上的概率分布,并動態地去削弱噪聲實例影響。然而,在數據稀疏情況下,傳統的注意力機制和多實例學習并不能很好地擬合在噪聲數據上的概率分布,使得從含噪的稀疏文本中對語義關系進行抽取的效果并不理想。另外,現有的關系抽取方法在英文語料上發展較為先進,而在中文語料的關系抽取研究相對落后。
發明內容
有鑒于此,本發明的目的在于提出一種用于含噪稀疏文本的語義關系抽取方法,用于從非結構的語料中抽取結構化的知識,特別是從含噪稀疏的中文文本中進行語義關系抽取。
基于上述目的,本發明提供的一種用于含噪稀疏文本的語義關系抽取方法,包括以下步驟:
步驟1,建立中文文本訓練樣本集;
步驟2,構建語義關系抽取模型;
步驟3,訓練語義關系抽取模型;
步驟4,建立待抽取語義的數據集;
步驟5,利用訓練好的語義關系抽取模型從待抽取語義的數據集中提取語義關系。
所述的訓練樣本集是利用知識圖譜遠程監督維基百科上的語料自動生成弱標注的數據,每條訓練實例包含目標實體對、分詞序列、依存路徑和弱監督標簽;
所述的依存路徑為最短依存路徑,定義為:在句法分析依存樹中實體對之間的最短路徑。
進一步地,所述的語義關系抽取模型包括輸入層、嵌入層、卷積層、特征融合層、全連接層,上述各層先后依次連接,所述輸入層為描述某一實體對的全部分詞序列和對應依存路徑所構成的實例包提供一個輸入接口;所述嵌入層將所輸入的分詞序列和對應依存路徑通過表示學習方式映射到低維向量空間;所述卷積層為兩個獨立的卷積網絡,分別用于提取實例包中所有分詞序列和所有對應依存路徑的語義特征;所述特征融合層將來自分詞序列和對應依存路徑兩方面的互補語義特征進行融合;所述全連接層將實例映射至已定義的關系集合上,獲得實體對之間的語義關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910806205.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于GPT-2模型的中文電子病歷實體識別方法
- 下一篇:一種免手操作的翻譯機





