[發明專利]文本相似度計算方法及裝置、智能機器人在審
| 申請號: | 201810569749.6 | 申請日: | 2018-06-05 |
| 公開(公告)號: | CN108763569A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 楊凱程;李健銓;蔣宏飛 | 申請(專利權)人: | 北京玄一科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100012 北京市朝陽區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似度 文本相似度 文本 最長公共子序列 并集 計算方法及裝置 智能機器人 交集 詞匯集合 智能機器 聊天機器人 相似度計算 人本發明 用戶提供 詞匯 聊天 答復 服務 | ||
本發明實施例提供了一種文本相似度計算方法及裝置、智能機器人,本發明實施例首先獲取兩個文本的最長公共子序列,之后對兩個文本對應的詞匯集合計算交集和并集,之后根據得到的交集和并集計算得到第一相似度,利用上述最長公共子序列對應的詞匯集合以及之前得到的并集計算第二相似度,最后根據第一相似度和第二相似度計算得到兩個文本的目標相似度。上述技術方案結合最長公共子序列以及文本中各個詞匯,計算兩個文本的相似度,有效提高了文本相似度的計算精度。進一步地,聊天機器人或智能機器人利用準確的文本相似度,能夠為用戶提供更加準確的答復,提高了聊天機器或智能機器人人的服務質量和用戶的體驗度。
技術領域
本發明實施例涉及文本處理技術領域,并且更具體地,涉及一種文本相似度計算方法及裝置、智能機器人。
背景技術
聊天機器人是在大數據及人工智能技術驅動下產生的一個熱門應用,在使用過程中,用戶輸入聊天內容,即用戶輸入其提出的問題,聊天機器人根據用戶輸入的問題,自動生成相應的回復,并反饋給用戶。這種人工智能的處理方式能夠在很大程度上提高服務效率和用戶的體驗度。目前存在多種類型的聊天機器人,比如蘋果公司的Siri、微軟公司的微軟小娜(Cortana)與小冰、百度公司的度秘以及京東公司JIMI(JD,Instant MessagingIntelligence),此外還有很多其他類型的聊天機器人,比如兒童教育機器人、車載控制機器人等。
在利用聊天機器人進行智能問答的實際應用場景中,用戶向聊天機器人提出問題,聊天機器人從用戶提出的問題中提取到關鍵信息,并根據關鍵信息從知識庫中選取相似的一個或多個預制問題,之后計算用戶提出的問題與每個預制問題的相似度,并選取相似度最大的預制問題,最后將選取得到的與用戶提出的問題相似度最大的預制問題,對應的答復反饋給客戶,完成一次智能機器人的智能問答。
以上不管是用戶提出的問題,還是知識庫中存儲的預制問題都是以文本的形式存在,計算用戶提出的問題與每個預制問題的相似度,實質上是計算兩個文本的相似度?,F有技術中計算兩個文本的相似度主要通過對文本進行分詞,并利用得到各個詞匯計算對應文本的相似度。其中存在的問題是各個單獨的詞匯并不能準確的表達對應文本的原始意義,這就造成了利用各個詞匯計算得到的文本之間的相似度不準確,例如有兩個文本:我喜歡你和你喜歡我,這兩個文本的意義完全不同,但是兩個文本分詞后的詞匯完全相同,那么利用現有技術計算得到的這兩個文本的相似度是1,顯然這是不準確的。進一步地,由于現有技術中計算文本的相似度不夠準確,那么聊天機器人根據文本相似度為用戶推送的答復也必定不夠都準確,嚴重影響了聊天機器人的服務質量和用戶的體驗度。
發明內容
本發明實施例提供了一種文本相似度計算方法及裝置、智能機器人,其能夠結合最長公共子序列以及文本中各個詞匯,計算兩個文本的相似度,有效提高了文本相似度的計算精度,聊天機器人或智能機器人利用準確的文本相似度,能夠為用戶提供更加準確的答復,從而進一步提高了聊天機器人或智能機器人的服務質量和用戶的體驗度。
第一方面,提供了一種文本相似度計算方法,所述方法包括:
獲取第一文本和第二文本的最長公共子序列;
分別對所述第一文本、第二文本和最長公共子序列進行分詞處理,得到第一詞匯集合、第二詞匯集合和第三詞匯集合;
計算所述第一詞匯集合與所述第二詞匯集合的交集,得到第一目標集合;計算所述第一詞匯集合與所述第二詞匯集合的并集,得到第二目標集合;
利用所述第一目標集合中每個詞匯的預定權重和所述第二目標集合中每個詞匯的預定權重計算第一相似度;利用第三詞匯集合中每個詞匯的預定權重和所述第二目標集合中每個詞匯的預定權重計算第二相似度;
根據所述第一相似度和第二相似度,計算所述第一文本和第二文本的目標相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京玄一科技有限公司,未經北京玄一科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810569749.6/2.html,轉載請聲明來源鉆瓜專利網。





