[發明專利]文本語句處理方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202010847425.1 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN111950269A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 劉知遠;彭皓;高天宇;韓旭;林衍凱;李鵬;孫茂松;周杰 | 申請(專利權)人: | 清華大學;騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/194 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 李文淵 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 語句 處理 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種文本語句處理方法、裝置、計算機設備和存儲介質,包括:獲取含實體對和實體對的關系標簽的樣本文本語句;根據關系標簽從樣本文本語句中提取正例語句對和負例語句對,并進行正負例采樣處理,獲得訓練集;將訓練集輸入至待訓練的關系抽取模型,生成包括對比損失值的損失值;對比損失值用于表征正例語句對中語句的相似度與負例語句對中語句的相似度之間的差異;根據損失值調整關系抽取模型的參數,并返回根據關系標簽從樣本文本語句中提取正例語句對和負例語句對的步驟,以進行迭代訓練,直至滿足訓練停止條件,得到關系抽取模型;關系抽取模型用于識別文本語句中實體對的實體關系。采用本方法能夠有效提高實體關系抽取的準確性。
技術領域
本申請涉及計算機技術領域,特別是涉及一種文本語句處理方法、裝置、計算機設備和存儲介質。
背景技術
隨著計算機技術的迅速發展,自然語言處理技術逐漸成熟。其中,關系抽取是一個重要的自然語言處理任務,旨在從大規模的原始文本中抽取結構化的信息,以供問答系統、對話系統、推薦系統、搜索引擎等使用。隨著神經網絡模型的發展,出現了越來越多的基于特征工程的關系抽取方式。
目前的關系抽取方式中通常依賴于特征工程,大多的關系抽取模型都采用實體的詞向量作為關系抽取的主要特征,在進行關系抽取時,會一定程度過擬合到實體名稱。這在構造特征的過程中容易造成誤差累積,阻礙系統性能,導致自然語言處理任務中實體關系抽取的準確性不高。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠有效提高自然語言處理任務中實體的關系抽取的準確性的文本語句處理方法、裝置、計算機設備和存儲介質。
一種文本語句處理方法,所述方法包括:
獲取樣本文本語句;所述樣本文本語句含實體對和所述實體對的關系標簽;
根據所述關系標簽從所述樣本文本語句中提取正例語句對和負例語句對,并對所述正例語句對和所述負例語句對進行正負例采樣處理,獲得訓練集;
將所述訓練集輸入至待訓練的關系抽取模型,生成損失值;所述損失值中包括對比損失值;所述對比損失值,用于表征所述正例語句對中語句的相似度與所述負例語句對中語句的相似度之間的差異;
根據所述損失值調整所述關系抽取模型的參數,并返回所述根據所述關系標簽從所述樣本文本語句中提取正例語句對和負例語句對的步驟,以進行迭代訓練,直至滿足訓練停止條件,得到關系抽取模型;所述關系抽取模型,用于識別文本語句中實體對的實體關系。
一種文本語句處理裝置,所述裝置包括:
樣本獲取模塊,用于獲取樣本文本語句;所述樣本文本語句含實體對和所述實體對的關系標簽;
采樣處理模塊,用于根據所述關系標簽從所述樣本文本語句中提取正例語句對和負例語句對,并對所述正例語句對和負例語句對進行正負例采樣處理,獲得訓練集;
關系抽取模塊,用于將所述訓練集輸入至待訓練的關系抽取模型,生成損失值;所述損失值中包括對比損失值;所述對比損失值,用于表征所述正例語句對中語句的相似度與所述負例語句對中語句的相似度之間的差異;
參數調整模塊,用于根據所述損失值調整所述關系抽取模型的參數,并返回所述根據所述關系標簽從所述樣本文本語句中提取正例語句對和負例語句對的步驟,以進行迭代訓練,直至滿足訓練停止條件,得到關系抽取模型。
在其中一個實施例中,所述實體對包括頭實體和尾實體;所述樣本獲取模塊還用于獲取初始樣本文本語句;按照預設概率值,從所述初始樣本文本語句的實體對中選取頭實體或尾實體;將選取的頭實體或尾實體替換為預設字符,獲得實體遮蔽后的樣本文本語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;騰訊科技(深圳)有限公司,未經清華大學;騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010847425.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于深度學習的號牌印刷質量檢測方法
- 下一篇:顯示面板和顯示裝置





