[發明專利]語義關系識別模型的訓練方法、裝置及終端有效
| 申請號: | 201910493678.0 | 申請日: | 2019-06-06 |
| 公開(公告)號: | CN110188202B | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 高參;何伯磊;肖欣延 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F40/295 |
| 代理公司: | 北京市鑄成律師事務所 11313 | 代理人: | 王珺;徐瑞紅 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 關系 識別 模型 訓練 方法 裝置 終端 | ||
本發明實施例提出一種語義關系識別模型的訓練方法、裝置以及終端,方法包括:將樣本數據集輸入至初始預訓練模型中,輸出樣本句子的表示信息,樣本數據集包括多個樣本語義單元;獲取多個特征詞,并將多個特征詞進行拼接,得到拼接特征詞的表示信息;將樣本句子的表示信息和拼接特征詞的表示信息輸入至初始分類器中,輸出樣本語義單元之間的語義關系類別;調整初始預訓練模型以及初始分類器,得到新預訓練模型和新分類器;根據新預訓練模型和新分類器建立語義關系識別模型。使用特征詞作為篇章關系中的強特征,能夠提升在特定語義關系上的分類效果。在利用語義關系識別模型進行語義關系類別的預測時,縮短了預測時間,提高了預測效率。
技術領域
本發明涉及機器學習技術領域,尤其涉及一種語義關系識別模型的訓練方法、裝置及終端。
背景技術
篇章語義關系識別是自然語言處理的一個基本任務,它通常是指識別自然語言中基本語義單元(EDU,Elementary discourse unit)間的語義關系。被廣泛應用在閱讀理解系統、情感分析系統、對話問答系統中。對于一個篇章級的文檔中,基本語義單元之間的可能會出現多類別的語義關系。例如,常見的語義關系類別有擴展關系(對一個事物或者實體進行細化或泛化的介紹描述)、因果關系(具有因果表示的文檔,可以是先因后果、也可以是先果后因)、轉折關系(具有語義上的轉折或者話題間的轉換關系)、并列關系(基本語義單元間具有平等關系,可以是平行的關系、相容的關系、互斥的關系)等。
篇章語義關系識別中,如果出現了能夠表明語義關系的詞語或者詞組叫做關聯詞,比如“因為…所以…”、“盡管…”、“并且”、“但是”,叫做顯式關系識別任務。沒有出現關聯詞,則叫做隱式關系識別任務。前者的識別效果遠好于后者的識別效果。當前,隱式關系識別任務主要是對具有語義關系的兩個EDU分別建模,然后再交互建模,最后計算語義關系的所屬類別。例如,利用詞組“口味還可以”和另一詞組“分量也足”分別建模,之后,利用兩個詞組之間的語義關系進行交互建模,輸出語義關系的類別。
由于有監督訓練語料較少,使得當前的表示方法對文本及文本間語義關系的表達能力受限,不能夠很好的表達文本間的關系。當前的模型,主要是依賴篇章數據集對模型進行訓練,沒有利用外部大規模數據集知識對模型表示進行增強。導致對語義關系的識別并不準確。
發明內容
本發明實施例提供一種語義關系識別模型的訓練方法、裝置及終端,以解決現有技術中的一個或多個技術問題。
第一方面,本發明實施例提供了一種語義關系識別模型的方法,包括:
將樣本數據集輸入至初始預訓練模型中,輸出樣本句子的表示信息,所述樣本數據集包括多個樣本語義單元;
獲取多個特征詞,并將多個特征詞進行拼接,得到拼接特征詞的表示信息;
將所述樣本句子的表示信息和所述拼接特征詞的表示信息輸入至初始分類器中,輸出所述樣本語義單元之間的語義關系類別;
調整所述初始預訓練模型以及所述初始分類器,得到新預訓練模型和新分類器;
根據所述新預訓練模型和所述新分類器建立語義關系識別模型。
在一種實施方式中,所述樣本數據集包括篇章數據集,將樣本數據集輸入至初始預訓練模型中,得到樣本句子的表示信息,包括:
將篇章數據集輸入至深度雙向預訓練模型中,得到篇章句子向量;
根據第一函數系數和所述篇章句子向量進行線性整流處理,得到篇章句子的表示信息。
在一種實施方式中,所述樣本數據集還包括情感數據集,將樣本數據集輸入至初始預訓練模型中,得到樣本句子的表示信息,包括:
將情感數據集輸入至所述深度雙向預訓練模型中,得到情感句子向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910493678.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息匹配方法及設備
- 下一篇:文本聚合方法、裝置、設備及存儲介質





