[發明專利]指代詞恢復方法、裝置、對話機器人及存儲介質有效
| 申請號: | 202011083035.8 | 申請日: | 2020-10-12 |
| 公開(公告)號: | CN112231451B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 方春華 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/216;G06F40/289;G06F40/30 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 姚維 |
| 地址: | 518033 廣東省深圳市福田區益田路5033號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 指代 恢復 方法 裝置 對話 機器人 存儲 介質 | ||
1.一種指代詞恢復方法,應用于對話機器人,其特征在于,所述指代詞恢復方法包括:
獲取所述對話機器人中當前待處理的多輪對話,并確定所述多輪對話中的指代詞;
基于所述指代詞,將所述多輪對話劃分為上文話術和下文話術,其中所述下文話術為包含所述指代詞的句子;
利用關鍵詞提取算法,提取所述上文話術的關鍵詞集合;
調用漢語分詞工具對所述下文話術的所有句子進行分詞,并對分詞進行過濾處理,得到下文文本序列;
將所述關鍵詞集合中的關鍵詞依次替換所述下文話術中的指代詞,并通過預置的語言模型,計算替換后的句子的出現概率;
將替換后的句子的出現概率進行相互比較,選擇其中所述出現概率最大的一個句子作為目標句子,并替換與其對應的指代詞的句子,得到目標下文話術;
所述利用關鍵詞提取算法,提取所述上文話術的關鍵詞集合包括:
利用漢語分詞工具對所述上文話術進行分詞,并通過預設的停詞表對分詞后的上文話術句子進行過濾,得到上文文本序列;
調用互點信息算法,計算所述上文文本序列中各分詞的詞頻,并基于所述詞頻確定每個分詞的概率;
根據所述概率提取出所述上文話術的至少一個關鍵詞,形成關鍵詞集合;
所述調用互點信息算法,計算所述上文文本序列中各分詞的詞頻,并基于所述詞頻確定每個分詞的概率包括:
篩選出所述上文文本序列中的提問分詞,并基于所述提問分詞從語料庫中匹配出對應的答案關鍵詞;
計算所述提問分詞和答案關鍵詞在所述語料庫中出現的概率;
基于所述提問分詞的概率和所述答案關鍵詞的概率,計算出所述上文文本序列中分詞的概率;
所述基于所述提問分詞的概率和所述答案關鍵詞的概率,計算出所述上文文本序列中分詞的概率包括:
計算所述提問分詞和所述答案關鍵詞在所述語料庫中一個對話話術的上下文同時出現的次數;
計算所述對話話術的提問話術和回答話術中相配對的提問詞語和答案詞語的總配對數;
根據所述次數和總配對數,計算所述提問分詞和所述答案關鍵詞同時出現的出現概率;
計算所述提問分詞在所述語料庫中提問句子中出現的提問概率,以及計算所述答案關鍵詞在所述語料庫中答案句子中出現的答案概率;
根據所述出現概率、提問概率和答案概率,計算所述上文文本序列中分詞的概率。
2.根據權利要求1所述的指代詞恢復方法,其特征在于,所述根據所述出現概率、提問概率和答案概率,計算所述上文文本序列中分詞的概率包括:
將所述出現概率除以所述提問概率與所述答案概率的乘積,得到概率比例;
計算所述概率比例的對數,得到所述上文文本序列中分詞的概率。
3.根據權利要求1或權利要求2所述的指代詞恢復方法,其特征在于,所述通過預置的語言模型,計算替換后的句子的出現概率包括:
對替換后的句子進行分詞,得到分詞序列;
利用N-gram模型計算所述分詞序列中第一分詞的第一概率;
利用N-gram模型計算所述分詞序列中相鄰量兩個分詞的組合概率;
根據所述第一概率和組合概率,確定所述替換后的句子的出現概率。
4.根據權利要求3所述的指代詞恢復方法,其特征在于,所述根據所述第一概率和組合概率,確定所述替換后的句子的出現概率包括:將所述第一概率和所述分詞序列中所有相鄰的兩個分詞組合的組合概率相乘,得到所述出現概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011083035.8/1.html,轉載請聲明來源鉆瓜專利網。





