[發明專利]一種基于多種特征的問題相似度計算方法有效
| 申請號: | 201811041071.0 | 申請日: | 2018-09-07 |
| 公開(公告)號: | CN109344236B | 公開(公告)日: | 2020-09-04 |
| 發明(設計)人: | 劉波;彭永幸 | 申請(專利權)人: | 暨南大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/30;G06F40/211;G06F16/33 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 劉巧霞 |
| 地址: | 510632 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多種 特征 問題 相似 計算方法 | ||
本發明公開了一種基于多種特征的問題相似度計算方法,包括步驟:針對輸入的新問題句子,將其與存儲的歷史問題及對應的答案進行比對計算,計算出新問題與歷史問題之間基于字符特征的相似度、基于詞語語義特征的相似度、基于句子語義特征的相似度、基于句子隱含主題特征的相似度和基于答案語義特征的相似度;最終相似度為上述5個相似度及其各自對應權重的乘積和,權重利用線性回歸方法訓練得到。本發明采用多種特征增加了樣本屬性的多樣性,提升了模型的泛化能力。同時利用軟余弦距離將TF?IDF與編輯距離、詞語語義等信息進行融合,克服了詞語之間的語義鴻溝,提高了相似度計算的準確率。
技術領域
本發明涉及計算機自然語言處理與自動問答系統研究領域,特別涉及一種基于多種特征的問題相似度計算方法。
背景技術
隨著數字化信息的快速增加,人們從網絡上獲取所需的信息資源的難度也隨之增大。如何在海量的數字化信息中,精準快速地為用戶找到所需的信息給自然語言處理(NLP)技術和信息檢索技術帶來了嚴峻的挑戰。因此,為了給用戶提供實時性強、精確度高的信息獲取渠道,研究機構和相關科技公司開始研究自動問答系統(QA)。在自動問答系統中,用戶只需要輸入問題就可以直接得到對應答案,不再需要用戶根據問題提取關鍵詞進行檢索以及閱讀大量網頁尋找答案。自動問答系統比傳統搜索引擎更加簡單易用、實時、精確,為用戶提供了舒適的人機交互體驗,成為目前信息技術新一代的研究熱點。自動問答系統允許用戶以自然語言形式描述問題,然后精確地理解用戶的問題,并通過檢索問答庫或者互聯網上搜索到的信息組織答案,最后返回精煉而準確的結果,提供了高效率的信息獲取渠道。
問題相似度計算是自動問答系統中首要環節,目的是從已有的問題集合中找出與新提出問題最相似的歷史問題,從而根據歷史問題的答案集給出新問題的答案。
目前,國內在自動問答領域也有一些成果。通用型社區問答系統包括Quora、頭條問答、百度知道等,專業型社區問答系統涉及多專業,例如Stack Overflow、CSDN等IT技術相關的問答系統。因此,問題相似度計算方法直接影響問答系統的準確率,具有很好的產業前景。
經過多年的研究積累,自動問答系統形成了通用的框架,主要由信息檢索、問題分析和答案獲取三個模塊組成。其中,問題分析模塊的主要任務是對用戶輸入的問題進行分析,從已有的問題集合中找出與新提出問題最相似的歷史問題,研究內容涉及問題相似度分析和問題排序,其中最主要的是問題與問題之間的相似度計算,從而根據相似度對歷史問題集合進行排序。答案獲取模塊主要根據問題檢索得到的相似問題集合,得到對應的答案集合。
文本相似度相關技術是問題相似度技術的基礎(問題和答案均屬于文本類型)。文本相似度計算方法主要有三種。
第一種是基于向量空間模型(Vector Space Model,VSM)的相似度計算,將文本映射到向量空間中的一個點,再利用數學方法計算空間中點與點的距離。有研究人員提出將VSM模型應用到常問問題(Frequently Asked Questions,FAQ)的相似問題檢索任務中,并針對FAQ的任務特點對VSM進行了改進。但這種方法文本稀疏導致維度過大,容易出現語義鴻溝問題。
第二種是基于句法分析的相似度計算,引入圖形化的方式描述一個句子中各個詞組相互支配和被支配關系。有研究人員提出基于深層結構的分析方法,首先對問題進行依存關系分析,選取句中最重要的詞以及直接依附于該詞的有效詞進行配對,然后基于依存關系結構進行中文的文本相似度計算。但這種方法句法分析、依存關系分析等工具較為復雜,需要有語言學背景,而且對復雜的長句型的分析效果不好。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于暨南大學,未經暨南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811041071.0/2.html,轉載請聲明來源鉆瓜專利網。





