[發明專利]文本語句處理方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202010847425.1 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN111950269A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 劉知遠;彭皓;高天宇;韓旭;林衍凱;李鵬;孫茂松;周杰 | 申請(專利權)人: | 清華大學;騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/194 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 李文淵 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 語句 處理 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種文本語句處理方法,其特征在于,所述方法包括:
獲取樣本文本語句;所述樣本文本語句含實體對和所述實體對的關系標簽;
根據所述關系標簽從所述樣本文本語句中提取正例語句對和負例語句對,并對所述正例語句對和所述負例語句對進行正負例采樣處理,獲得訓練集;
將所述訓練集輸入至待訓練的關系抽取模型,生成損失值;所述損失值中包括對比損失值;所述對比損失值,用于表征所述正例語句對中語句的相似度與所述負例語句對中語句的相似度之間的差異;
根據所述損失值調整所述關系抽取模型的參數,并返回所述根據所述關系標簽從所述樣本文本語句中提取正例語句對和負例語句對的步驟,以進行迭代訓練,直至滿足訓練停止條件,得到關系抽取模型;所述關系抽取模型,用于識別文本語句中實體對的實體關系。
2.根據權利要求1所述的方法,其特征在于,所述實體對包括頭實體和尾實體;所述獲取樣本文本語句包括:
獲取初始樣本文本語句;
按照預設概率值,從所述初始樣本文本語句的實體對中選取頭實體或尾實體;
將選取的頭實體或尾實體替換為預設字符,獲得實體遮蔽后的樣本文本語句。
3.根據權利要求1所述的方法,其特征在于,在所述根據所述損失值調整所述關系抽取模型的參數之后,且在所述返回所述根據所述關系標簽從所述樣本文本語句中提取正例語句對和負例語句對的步驟的之前,還包括:
按照預設概率值,從所述樣本文本語句的實體對中選取頭實體或尾實體;
將選取的頭實體或尾實體替換為預設字符,獲得實體遮蔽后的樣本文本語句。
4.根據權利要求1所述的方法,其特征在于,所述根據所述關系標簽從所述樣本文本語句中提取正例語句對和負例語句對,包括:
根據所述關系標簽相同的樣本文本語句,生成樣本語句包;
將所述樣本語句包中的任意兩個樣本文本語句進行組合,獲得正例語句對;
將所述關系標簽不同的任意兩個樣本文本語句進行組合,獲得負例語句對。
5.根據權利要求1所述的方法,其特征在于,所述對所述正例語句對和所述負例語句對進行正負例采樣處理,獲得訓練集,包括:
按照預設的正負例采樣比值,對所述正例語句對和所述負例語句對進行采樣抽取;
根據采樣抽取的正例語句對和負例語句對,生成訓練集。
6.根據權利要求1所述的方法,其特征在于,所述將所述訓練集輸入至待訓練的關系抽取模型,生成損失值,包括:
將所述訓練集輸入至待訓練的關系抽取模型,提取所述訓練集中各所述樣本文本語句的語義關系特征;
根據各所述樣本文本語句的語義關系特征,確定所述正例語句對中語句的相似度、以及所述負例語句對中語句的相似度;
根據所述正例語句對中語句的相似度和所述負例語句對中語句的相似度,確定對比損失值,并根據所述對比損失值生成所述損失值。
7.根據權利要求6所述的方法,其特征在于,所述提取所述訓練集中各所述樣本文本語句的語義關系特征,包括:
通過所述關系抽取模型,提取所述訓練集中各所述樣本文本語句的上下文語義特征和實體關聯特征;
將所述上下文語義特征和所述實體關聯特征進行特征拼接,得到拼接后的聯合特征;
根據所述拼接后的聯合特征,獲得各所述樣本文本語句的語義關系特征。
8.根據權利要求6所述的方法,其特征在于,所述正例語句對和所述負例語句對分別具有相應的根據所述關系標簽確定的樣本標簽;
所述根據所述正例語句對中語句的相似度和所述負例語句對中語句的相似度,確定對比損失值,包括:
根據所述正例語句對中語句的相似度與相應樣本標簽之間的差異,以及所述負例語句對中語句的相似度與相應所述樣本標簽之間的差異,生成所述對比損失值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;騰訊科技(深圳)有限公司,未經清華大學;騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010847425.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于深度學習的號牌印刷質量檢測方法
- 下一篇:顯示面板和顯示裝置





