[發明專利]一種確定實體語料之間的相似性的方法及裝置在審
| 申請號: | 201811151935.4 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN110969005A | 公開(公告)日: | 2020-04-07 |
| 發明(設計)人: | 王芳;林文輝;王志剛;孫科武;楊碩;賴新明;王亞平 | 申請(專利權)人: | 航天信息股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/295 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 黃志華 |
| 地址: | 100195 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 實體 語料 之間 相似性 方法 裝置 | ||
本發明公開了一種確定實體語料之間的相似性的方法及裝置,該訓練裝置通過從預設實體語料庫中隨機抽取出訓練集,將該訓練集中實體語料配對獲取訓練實體語料關系對,獲取與訓練實體語料關系對相對應的矩陣向量,利用卷積神經網絡處理矩陣向量,獲取訓練實體語料關系對的訓練分類概率,從而完成對該卷積神經網絡的訓練,從而使用該卷積神經網絡和預設實體語料庫的智能客服就可以為用戶提供問題答案精確搜索功能,進而可以解決現有技術中存在的對于智能客服系統,由于用戶輸入的信息不精確,智能客服系統無法從自身的知識庫中找到正確的答案,從而降低了用戶體驗的技術問題。
技術領域
本發明涉及深度學習技術領域,尤其涉及一種確定實體語料之間的相似性的方法及裝置。
背景技術
隨著人工智能技術的飛速發展,將抽取實體語料之間的關系應用于文本搜索方面已經屢見不鮮,例如,在稅務方面,稅務實體語料的關系指的是稅務實體語料之間的相似性。實體語料之間的關系抽取的方法分為三類,一類為有監督的學習方法,即將關系抽取任務當做分類問題。根據訓練數據設計有效的特征,從而學習各類分類模型,然后使用訓練好的分類器預測關系。該方法的缺點在于需要大量的人工標注訓練實體語料,而語料標注工作通常非常耗時耗力。第二類是半監督的學習方法:主要采用BootStrapping進行關系抽取,對于要抽取的關系,該方法首先人工設定若干種子實例,然后迭代地從數據中抽取關系對應的關系模板和更多的實例。第三類為無監督的學習方法:假設擁有相同語義關系的實體對擁有相似的上下文信息。因此可以利用每個實體語料關系對對應的上下文信息來代表該實體對的語義關系,并對所有實體對的語義關系進行聚類。現有的有監督學習關系抽取方法已經取得了較好的效果,但它們嚴重依賴詞性標注,句法解析等自然語言處理標注提供分類特征,而自然語言處理標注工作通常存在大量錯誤,這些錯誤將會在關系抽取系統中不斷傳播放大,最終影響關系抽取的效果。
例如,現有的智能客服系統,納稅服務步入“互聯網+稅務”的智能化時代。智能客服為納稅人提供便捷智能、無處不在的客戶服務,例如某市的微信公眾號等智能客服系統,通常在咨詢的入口,納稅人可以通過語音或文字方式輸入相關問題,智能客服通過語音識別、自然語言理解等人工智能技術從稅務知識庫中找到匹配的答案并以文字、圖文、網頁鏈接等形式反饋給納稅人。但由于納稅人分布全國各地,納稅咨詢過程中存在著普通話夾雜各種方言、對稅務實體的口語化表述各有不同或者各地稅務實體口語化的不嚴謹表達等現象,智能客服系統通常無法將不標準的口語化的表述內容與標準答案準確匹配,從而不能快速搜索到答案,造成了智能問答系統的滿意度不高。例如某地納稅人口語中的“稅盤”與標準知識庫中的“金稅盤”所指代一致,屬于同意但不同詞,智能客服系統無法將口語表述的內容與標準知識庫答案作為完全匹配項,從而無法完成答案的精準搜索,造成了智能客服系統滿意度不高的結果。
因此,現有技術中至少存在如下的技術問題:
對于智能客服系統,由于用戶輸入的信息不精確,智能客服系統無法從自身的知識庫中找到正確的答案,從而降低了用戶體驗。
發明內容
本發明實施例通過提供一種確定實體語料之間的相似性的方法及裝置,用于解決現有技術中存在的對于智能客服系統,由于用戶輸入的信息不精確,智能客服系統無法從自身的知識庫中找到正確的答案,從而降低了用戶體驗的技術問題。
第一方面,本發明一實施例提供了一種確定實體語料之間的相似性的方法,包括:
從預設實體語料庫中隨機抽取出訓練集,其中,所述訓練集由若干個實體語料構成;
將所述訓練集中的任一實體語料與除該實體語料外的各個實體語料配對,直至所述訓練集中的所有實體語料都完成配對,從而獲取若干個訓練實體語料關系對;
獲取與各個訓練實體語料關系對相對應的各個訓練語句矩陣向量;
利用卷積神經網絡對所述各個訓練語句矩陣向量進行處理,獲取所述各個訓練實體語料關系對的訓練分類概率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天信息股份有限公司,未經航天信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811151935.4/2.html,轉載請聲明來源鉆瓜專利網。





