[發(fā)明專利]文本相似度計算方法及裝置、智能機器人在審
| 申請?zhí)枺?/td> | 201810569663.3 | 申請日: | 2018-06-05 |
| 公開(公告)號: | CN108763566A | 公開(公告)日: | 2018-11-06 |
| 發(fā)明(設計)人: | 楊凱程;李健銓;蔣宏飛 | 申請(專利權)人: | 北京玄一科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100012 北京市朝陽區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本相似度 詞匯 智能機器人 計算方法及裝置 聊天機器人 業(yè)務相關 文本 人本發(fā)明 用戶提供 智能機器 交集 詞匯庫 答復 服務 | ||
本發(fā)明實施例提供了一種文本相似度計算方法及裝置、智能機器人,本發(fā)明實施例利用預定詞匯庫,從兩個文本的詞匯并集中選取業(yè)務相關的詞匯,之后利用得到的業(yè)務相關詞匯以及兩個文本的詞匯交集計算得到文本相似度,該技術方案有效提高了文本相似度的計算精度,克服了現有技術中只利用文本中的詞匯計算得到的文本相似度精度不高的缺陷。進一步地,聊天機器人或智能機器人利用準確的文本相似度,能夠為用戶提供更加準確的答復,提高了聊天機器人或智能機器人的服務質量和用戶的體驗度。
技術領域
本發(fā)明實施例涉及文本處理技術領域,并且更具體地,涉及一種文本相似度計算方法及裝置、智能機器人。
背景技術
聊天機器人是在大數據及人工智能技術驅動下產生的一個熱門應用,在使用過程中,用戶輸入聊天內容,即用戶輸入其提出的問題,聊天機器人根據用戶輸入的問題,自動生成相應的回復,并反饋給用戶。這種人工智能的處理方式能夠在很大程度上提高服務效率和用戶的體驗度。目前存在多種類型的聊天機器人,比如蘋果公司的Siri、微軟公司的微軟小娜(Cortana)與小冰、百度公司的度秘以及京東公司JIMI(JD,Instant MessagingIntelligence),此外還有很多其他類型的聊天機器人,比如兒童教育機器人、車載控制機器人等。
在利用聊天機器人進行智能問答的實際應用場景中,用戶向聊天機器人提出問題,聊天機器人從用戶提出的問題中提取到關鍵信息,并根據關鍵信息從知識庫中的選取相似的一個或多個預制問題,之后計算用戶提出的問題與每個預制問題的相似度,并判斷最大的相似度是否大于預定的置信度,如果大于預定的置信度,則將最大的相似度對應的預制問題的答復反饋給客戶,完成智能機器人的一次智能問答。
以上,不管是用戶提出的問題,還是知識庫中存儲的預制問題都是以文本的形式存在,計算用戶提出的問題與每個預制問題的相似度,實質上是計算兩個文本的相似度。但是由于用戶的表達習慣、地域以及文化水平的差異,對于同一問題會有很多種不同的表達方式,具體表現在用戶對同一問題的描述在提問風格以及提問長度等方面的區(qū)別很大,并且在用戶的問題中可能會摻雜很多和業(yè)務不相關的詞匯,進一步增加了問題的長度,即增加了文本的長度。現有技術中計算兩個文本的相似度主要通過對文本進行分詞,并利用得到各個詞匯計算對應文本的相似度。其中存在的問題是,由于用戶提出的問題對應的文本中包含很多不相關的詞匯,導致計算的文本相似度偏低。例如某用戶要咨詢的問題是信用卡辦理,其向聊天機器人提出文本的可能是“今天天氣很好,我是湖南人,今年26歲,我想辦理信用卡”,聊天機器人根據這個包含很多業(yè)務不相關詞匯計算得到的相似度很可能無法大于預定的置信度,那么聊天機器人就無法為用戶提供答復,嚴重影響了聊天機器人的服務質量以及用戶的體驗度。如果調整置信度則會影響到整個聊天機器人的答復效果,因此不能輕易調整置信度。
為了克服上述由于文本中包含很多業(yè)務不相關詞匯,導致計算的文本相似度值偏低的缺陷,現有技術中提出一種文本切分的處理方法,具體地,根據標點符號,將長文本分成若干個短文本,然后根據得到的短文本計算相似度。例如:“今天天氣很好,我是湖南人,今年26歲,我想辦理信用卡”。可以切分成四個短文本,即“今天天氣很好”、“我是湖南人”、“今年26歲”以及“我想辦理信用卡”。這種處理方式存在以下問題:第一、如果長文本中不包含標點符號,則無法進行文本切分;第二、文本切分之后要根據切分得到的文本的數量,進行若干次相似度計算,時效性無法保障,導致聊天機器人的服務效率降低;第三、長文本可能包含在若干個短文本,單獨的一個短文本不能表達原來長文本的完整涵義,導致計算的到的相似度不準確。可見上述文本切分的方法也無法有效解決上述計算得到的長文本相似度偏低的缺陷。
綜上,現有技術中無法準確地計算包含較多的業(yè)務不相關詞匯的文本的相似度,進一步地,由于計算得到的文本相似度不夠準確,那么聊天機器人根據文本相似度為用戶推送的答復也必定不夠都準確,嚴重影響了聊天機器人的服務質量和用戶的體驗度。
發(fā)明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京玄一科技有限公司,未經北京玄一科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810569663.3/2.html,轉載請聲明來源鉆瓜專利網。





