[發明專利]基于旅游領域知識圖譜的知識問答檢索方法及裝置有效
| 申請號: | 202010121654.5 | 申請日: | 2020-02-26 |
| 公開(公告)號: | CN111353030B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 曹菡;楊露 | 申請(專利權)人: | 陜西師范大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/36;G06F16/951 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 房鑫 |
| 地址: | 710119 陜西*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 旅游 領域 知識 圖譜 問答 檢索 方法 裝置 | ||
1.一種基于旅游領域知識圖譜的知識問答檢索方法,其特征在于,包括以下步驟:
使用Python程序爬取旅游網站信息,構建旅游領域知識圖譜;
用戶輸入與旅游相關的自然語言問句;
分析用戶提出的自然語言問句,對自然語言進行分詞,并對每個詞語進行詞性標注;
以“實體-屬性-屬性值”的形式存儲知識圖譜,將問句與知識圖譜進行鏈接;
根據鏈接出的“實體”和“屬性”,從知識圖譜中查詢相關三元組,并返回屬性值;
所述“實體”和“屬性”進行鏈接的方式為:根據已經標注好的詞語詞性識別出實體;將識別出的問句實體和知識圖譜中的實體進行距離計算,選取距離最短的實體進行鏈接;使用神經網絡模型鏈接問句和知識圖譜中的屬性,通過模型計算之后返回結果高的屬性進行鏈接;
通過余弦相似度算法計算實體間的相似度,計算公式如下:
式中,A表示問句實體,B表示知識圖譜中的實體,n表示詞向量的維度;
由上式計算出兩個實體之間的距離,通過比較,選擇與問句實體距離最近的知識圖譜中的實體進行鏈接;鏈接到實體和屬性之后,遍歷知識圖譜中的三元組,選取能夠同時匹配實體和屬性的三元組,將該三元組中的屬性值作為答案返回給用戶;
所述的神經網絡模型采用CNN模型,將問句和屬性同時輸入模型,在輸入層計算問句和屬性的相似度得到相似度矩陣,將相似度矩陣進行卷積池化,選擇最終結果的平均值高的屬性鏈接。
2.根據權利要求1所述基于旅游領域知識圖譜的知識問答檢索方法,其特征在于:構建旅游領域知識圖譜包括兩種實現方法,一種方法是使用Python程序爬取旅游網站信息,將抽取出的旅游實體批次導入Neo4j圖數據庫,將錯誤數據進行修改,對于空缺數據進行補齊,如果沒有數據則使用null進行填充,并設置相關聯實體集之間的屬性,對設置好的數據進行處理得到“實體-屬性-屬性值”三元組;另一種方法是人工收集與旅游有關的實體和屬性值,包括景點、酒店、美食、門票、景點等級、地址以及消費價格,手動添加到知識圖譜當中。
3.根據權利要求1所述基于旅游領域知識圖譜的知識問答檢索方法,其特征在于:采用結巴庫對用戶提出的自然語言問句進行分詞和詞性標注,將長句劃分為一個一個的詞語,并對詞語進行詞性標注;在此過程中,找出第一個詞性為名詞的詞語,如果該詞語的下一個詞語還是名詞,則將兩個詞語進行拼接,直至詞性不是名詞為止,將整合得到的詞語輸出。
4.根據權利要求1所述基于旅游領域知識圖譜的知識問答檢索方法,其特征在于:
使用CNN模型進行屬性鏈接的具體實現方法如下:
輸入層設置;
1)將問句和屬性分詞,并去除問句中的停用詞;
2)使用訓練好的詞向量模型計算問句中各詞語和屬性中各詞語的相似度,訓練詞向量使用Google公司推出的word2vec模型,數據集使用中文維基百科數據;
3)將注意力機制加入輸入層,在進行相似度計算之后根據相似度大小的不同進行加權,得到最終的相似度矩陣;所述的注意力機制公式如下:
Ai,j=score(Q[i,:],p[j,:])
式中,Q表示問句,i表示問句中的詞語;p表示知識圖譜中的屬性,j表示屬性中的詞語;dis(i,j)表示i和j的相似度;
卷積層設置;
卷積層用于實現特征選取,設置滑動窗口來掃描輸入層的矩陣,卷積層計算表達式如下:
式中,x表示相似度矩陣,n和m分別是矩陣的行數和列數;
池化層設置;
池化層用于從卷積層的輸入中提取有效特征,進而丟棄不相關的數據,減少參數量;采用max-pooling方法實現池化層,將矩陣中兩個連續的數字進行比較,拋棄其中小的數值;
輸出層設置;
通過輸入層將文本數據轉化為相似度矩陣,卷積層對矩陣進行運算提取特征,池化層通過池化選擇無關數據丟棄,最后進入輸出層;輸出層實現卷積層和池化層的全連接,經過多次循環,得到最終的矩陣;將結果中的數據進行平均運算并排序,得分最高的屬性輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陜西師范大學,未經陜西師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010121654.5/1.html,轉載請聲明來源鉆瓜專利網。





