[發明專利]一種基于WMD的中文問答匹配方法在審
| 申請號: | 201710539034.1 | 申請日: | 2017-07-04 |
| 公開(公告)號: | CN107391614A | 公開(公告)日: | 2017-11-24 |
| 發明(設計)人: | 杜云貴;杜若;李智星;侯聰;晏世凱;劉科 | 申請(專利權)人: | 重慶智慧思特大數據有限公司;重慶明斯基數據科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 重慶市恒信知識產權代理有限公司50102 | 代理人: | 劉小紅 |
| 地址: | 400065 重慶市*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 wmd 中文 問答 匹配 方法 | ||
技術領域
本發明涉及問答系統以及自然語言處理領域,特別是涉及一種基于WMD的中文問答匹配方法。
背景技術
隨著信息技術的迅猛發展,互聯網上的數據呈海量增長,與此同時,網絡上的冗余數據也越來越多,對于需要在網絡上檢索自己所需信息的用戶來說,其檢索任務也變得愈加困難,如何簡潔方便又有效的獲取用戶想了解的信息已成為一個難題擺到人們面前。
因此,以Google、百度為代表的搜索引擎得到了迅猛的發展,用戶只要向搜索引擎輸入一些關鍵詞組合,搜索引擎就可以返回大量包含相應關鍵詞的網頁,再通過對返回結果進行篩選,即可得到自己所需的信息。但搜索引擎存在很多的不足,一方面返回的結果太多,導致用戶很難快速的定位到所需信息;另一方面,搜索引擎技術的基礎——關鍵字匹配,只關注了語法形式,并沒有涉及語言的語義信息,用戶僅采用簡單的查詢詞很難表達其真實的檢索需求,導致檢索效果一般。
獲取需求信息的方式除搜索引擎外,還有另外一種方式,即問答系統(QA,Question Answering)。問答系統是目前自然語言處理領域的一個研究熱點,區別于搜索引擎系統,問答系統既能夠讓用戶使用自然語言句子提問,又能夠為用戶直接返回所需的答案,而不是一些相關的網頁,這使得問答系統能讓人們在雜亂無章的網絡世界中快速、準確地獲得自己想要的信息。然而,在問答系統中,對問題的正確理解是整個問題處理過程的前提,句子相似度的計算又是正確理解用戶提出問題的基礎。因此,需要針對問答系統開發一種精度更高的問句匹配方法以提升問答系統的準確率。
WMD(Word Mover’s Distance)距離是一種基于Word2vec的文檔間相似度度量算法。對于兩篇文檔,該算法首先將文檔使用BOW模型(Bag of Words)向量化表示,得到文檔對應的特征向量;同時求取兩篇文檔中的所有詞語之間的距離,進一步得到距離矩陣,將兩篇文檔所對應的特征向量和距離矩陣作為輸入代入EMD(Earth Mover’s Distance)距離算法即可求得WMD距離。在文檔分類中,當使用WMD距離替代原始kNN算法(k-Nearest Neighbors)中的歐式距離時,可以有效的降低分類的誤差。
發明內容
本發明旨在解決以上現有技術的問題。提出了一種提高搜索問答準確度、提高效率的基于WMD的中文問答匹配方法。本發明的技術方案如下:
一種基于WMD的中文問答匹配方法,其包括:
目標領域的知識庫的建立步驟:對知識庫的數據預處理步驟:常用同義詞詞典的建立步驟:詞語距離字典的建立步驟:用戶提問信息的預處理步驟:文檔向量化表示步驟:問句檢索及問句匹配步驟:答案返回。
進一步的,所述目標領域的知識庫的建立步驟包括:收集某一目標領域的知識,并將其整理為問答對的形式。
進一步的,所述對知識庫的數據預處理步驟包括:通過無監督算法從知識庫中發現新詞(新詞是指詞庫里面沒有出現過的詞,比如某些機構的名字,網絡新詞匯等),將新詞和目標領域的專業詞匯作為詞庫,使用中文分詞算法將知識庫中的問句和答案進行分詞操作,并過濾分詞結果中出現的標點符號。
進一步的,所述常用同義詞詞典的建立步驟包括:將現有同義詞詞林、百科詞條整理轉換得到常用同義詞詞典,再使用爬蟲抓取互聯網上的詞條并整理成中文常用同義詞詞典,并使用正則表達式將知識庫中的英文單詞找出并翻譯,得到中英常用同義詞詞典,將這兩者更新至常用同義詞詞典。
進一步的,所述詞語距離字典的建立步驟包括:使用分詞并過濾后的知識庫作為訓練語料,為出現過的每個詞語訓練一個d維的word2vec向量,通過每個詞語的word2vec向量計算出每個詞語的前k個近鄰詞語及對應的距離,得到詞語距離字典,同時,為得到的常用同義詞詞典中的同義詞兩兩之間啟發式的設置一個距離值,使用該距離值更新詞語距離字典。
進一步的,所述用戶提問信息的預處理步驟包括:將發現的新詞和目標領域的專業詞匯作為詞庫使用中文分詞算法將用戶提出的問句進行分詞操作,并過濾分詞結果中的標點符號。
進一步的,所述文檔向量化表示步驟包括:根據詞頻、文檔頻、詞性、詞語位置將知識庫中的問句和用戶提出的問句向量化表示。
進一步的,文檔向量化表示使用的是加權后的TF-IDF值,權值設置的依據為詞語的詞性以及詞語的長度信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶智慧思特大數據有限公司;重慶明斯基數據科技有限公司,未經重慶智慧思特大數據有限公司;重慶明斯基數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710539034.1/2.html,轉載請聲明來源鉆瓜專利網。





