[發明專利]一種基于專業詞匯挖掘的專業領域FAQ智能問答方法有效
| 申請號: | 201910316908.6 | 申請日: | 2019-04-19 |
| 公開(公告)號: | CN110188174B | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 呂明琪;張浩;朱康鈞;黃超;陳鐵明 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/335;G06F40/289 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 專業 詞匯 挖掘 領域 faq 智能 問答 方法 | ||
一種基于專業詞匯挖掘的專業領域FAQ智能問答方法,包括以下步驟:(1)頻繁詞挖掘與歸并:基于子串挖掘算法從專業領域文檔集中挖掘出候選頻繁詞,并對同頻候選頻繁詞進行歸并,最終得到頻繁詞集;(2)頻繁詞過濾與驗證:采用詞法規則對頻繁詞進行過濾,采用互聯網知識對頻繁詞進行驗證,最終得到專業詞匯集;(3)問題檢索與答案返回:借助專業詞匯集抽取實時問題關鍵詞,在此基礎上對歷史問題進行全文檢索和匹配度計算,最終返回匹配度最高的歷史問題對應的答案。本發明提供了一種提高專業領域FAQ智能問答系統的服務質量的基于專業詞匯挖掘的專業領域FAQ智能問答方法。
技術領域
本發明涉及數據挖掘和自然語言處理技術,具體涉及一種智能問答方法。
背景技術
智能問答系統可根據用戶以自然語言形式輸入的問句,返回最符合用戶意圖的文本信息。根據實現方式的不同,智能問答系統大致可分為基于信息檢索的智能問答系統、基于閱讀理解的智能問答系統、基于知識圖譜的智能問答系統等。其中,基于信息檢索的智能問答系統即FAQ智能問答系統,指在歷史問答數據中檢索得到最符合用戶當前問題的答案。由于歷史問答數據通常由領域專家提供,因此FAQ智能問答系統給出的答案質量較高,這種特性使得其較為適合面向專業領域的智能問答系統。
現有FAQ智能問答系統的主流實現技術為關鍵詞檢索,其主要流程如下:首先,從用戶問題中抽取關鍵詞。然后,基于關鍵詞對歷史問題進行全文檢索。最后,對檢索結果進行評分并返回評分最高的歷史問題對應的答案。然而,現有方法沒有充分考慮專業領域問答的特點。對于專業領域問題,其中包含的專業詞匯對理解該問題具有關鍵的意義,但現有方法難以有效處理,主要表現在:首先,大多專業詞匯不包含在通用詞庫里,因此分詞算法難以正確的對包含專業詞匯的問句進行分詞,無法抽取高質量的專業領域關鍵詞。其次,即使分詞算法能夠對專業詞匯進行正確分割,系統也只是將專業詞匯和普通詞匯同等對待,無法體現專業詞匯在結果評分中的重要性。因此,若能夠有效的對專業詞匯進行挖掘和抽取,可極大程度提高專業領域FAQ智能問答系統的服務質量。
發明內容
為了克服已有FAQ智能問答系統的服務質量較低的不足,本發明提供了一種提高專業領域FAQ智能問答系統的服務質量的基于專業詞匯挖掘的專業領域FAQ智能問答方法。
本發明解決其技術問題所采用的技術方案是:
一種基于專業詞匯挖掘的專業領域FAQ智能問答方法,包括以下步驟:
(1)頻繁詞挖掘與歸并:基于子串挖掘算法從專業領域文檔集中挖掘出候選頻繁詞,并對同頻候選頻繁詞進行歸并,最終得到頻繁詞集;
(2)頻繁詞過濾與驗證:采用詞法規則對頻繁詞進行過濾,采用互聯網知識對頻繁詞進行驗證,最終得到專業詞匯集;
(3)問題檢索與答案返回:借助專業詞匯集抽取實時問題關鍵詞,在此基礎上對歷史問題進行全文檢索和匹配度計算,最終返回匹配度最高的歷史問題對應的答案。
進一步,所述步驟(1)中,給定專業領域文檔集S,頻繁詞挖掘與歸并的步驟如下:
(1-1)初始化:掃描S,尋找所有出現頻次大于等于指定閾值min_sup的字,并以其中每個字作為根節點構造一顆樹,初始化n=2;
(1-2)候選頻繁詞挖掘:基于N-Gram模型掃描S,尋找所有出現頻次大于等于min_sup的長度為n的候選頻繁詞,得到候選頻繁詞集CWS;
(1-3)候選頻繁詞索引:若則對其中每個候選頻繁詞cw,基于深度優先搜索在所有樹中尋找路徑對應cw[0:n-1]的一條分支,將字cw[n-1]插入該分支,并設置插入邊的權重為cw的出現頻次,然后n=n+1,轉向步驟(1-2);反之,則轉向步驟(1-4);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910316908.6/2.html,轉載請聲明來源鉆瓜專利網。





