[發明專利]場景對話文本識別方法、裝置以及終端有效
| 申請號: | 201810716111.0 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN108897723B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 曹宇慧;馮仕堃;何徑舟 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/14;G06F16/33;G06N3/08 |
| 代理公司: | 北京市鑄成律師事務所 11313 | 代理人: | 王珺;武晨燕 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 場景 對話 文本 識別 方法 裝置 以及 終端 | ||
本發明提出一種場景對話文本識別方法、裝置以及終端。其中,該方法包括:將場景對話文本輸入至長短記憶型遞歸神經網絡模型中,得到對話語義連貫特征分數;將場景對話文本輸入至特征抽取器中,生成對話特征參量;將對話語義連貫特征分數和對話特征參量輸入至梯度提升數融合模型中,得到優質交互的概率值;如果優質交互的概率值大于優質交互閾值時,則場景對話文本是優質交互文本。有效的挖掘了場景對話文本中的語義信息,并將語義信息和其它的對話特征參量融合在一起,對場景對話文本進行識別,給多輪對話的場景對話文本打上優質或者非優質的標簽。
技術領域
本發明涉及計算機技術領域,具體涉及一種場景對話文本識別方法、裝置以及終端。
背景技術
在搜索引擎的網頁庫中,存在大量的多輪對話數據,例如,對話主題主要針對醫療咨詢。雖然搜索引擎的網頁庫中這類多輪對話數據的存量巨大,但是多輪對話數據的質量卻參差不齊。受用戶提問方式、描述詳細程度、反饋時效等因素的影響,以及回答內容的好壞,用戶和回復者(例如,醫生)的多輪對話內容的好壞差異較大。優質的多輪對話內容的價值巨大,可以根據優質多輪對話內容了解更多的各個領域(例如,醫療領域)相關的權威知識,并且能夠從中得到滿足用戶需求的信息。由于多輪對話數據存量的巨大、質量的參差不齊、優質數據的巨大價值,自動化識別優質多輪對話數據對于提升用戶體驗有很大的幫助。
然而,現有的基于人工定制規則的對話文本的識別方法的應用并不廣泛,對于規則以外的多輪對話數據無法識別是否為優質數據。人工定制規則成本較高,并且對優質數據的覆蓋率非常低。人工規則只考慮了多輪對話輪次、對話內容文本的長度等簡單特征,而沒有考慮到對話內容的語義信息及對話間的連貫信息。
發明內容
本發明實施例提供一種場景對話文本識別方法、裝置以及終端,以至少解決現有技術中的以上技術問題。
第一方面,本發明實施例提供了一種場景對話文本識別方法,包括:
將場景對話文本輸入至長短記憶型遞歸神經網絡模型中,得到對話語義連貫特征分數;
將所述場景對話文本輸入至特征抽取器中,生成對話特征參量;
將所述對話語義連貫特征分數和所述對話特征參量輸入至梯度提升數融合模型中,得到優質交互的概率值;
如果所述優質交互的概率值大于優質交互閾值時,則所述場景對話文本是優質交互文本。
結合第一方面,本發明在第一方面的第一種實施方式中,將場景對話文本輸入至長短記憶型遞歸神經網絡模型中,得到對話語義連貫特征分數,包括:
將所述場景對話文本中的每條對話語句進行切詞,并將切詞后得到的各個分詞轉化為詞向量;
將每條所述對話語句包含的所述詞向量進行相加,生成與所述對話語句對應的語句特征向量;
將各個所述語句特征向量輸入至所述長短記憶型遞歸神經網絡層中,生成對話特征向量;
將所述對話特征向量輸入至全連接層,輸出連貫性類別和非連貫性類別;
將所述連貫性類別和所述非連貫性類別輸入至多類別邏輯回歸函數中計算對應的概率值,得到所述對話語義連貫特征分數。
結合第一方面的第一實施方式,按照對所述場景對話文本中的對話順序將所述語句特征向量輸入至所述長短記憶型遞歸神經網絡層中。
結合第一方面,本發明在第一方面的第二種實施方式中,所述對話特征參量包括多輪對話的輪次、每輪對話中交互次數、回復的文本長度和對話主題實體詞中的至少一項。
結合第一方面,本發明在第一方面的第三種實施方式中,所述長短記憶型遞歸神經網絡模型用于接收所述場景對話文本中的長語句,所述長語句是文本長度大于對話長度閾值的語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810716111.0/2.html,轉載請聲明來源鉆瓜專利網。





