[發(fā)明專利]基于旅游領域知識圖譜的知識問答檢索方法及裝置有效
| 申請?zhí)枺?/td> | 202010121654.5 | 申請日: | 2020-02-26 |
| 公開(公告)號: | CN111353030B | 公開(公告)日: | 2023-04-28 |
| 發(fā)明(設計)人: | 曹菡;楊露 | 申請(專利權)人: | 陜西師范大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/36;G06F16/951 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 房鑫 |
| 地址: | 710119 陜西*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 旅游 領域 知識 圖譜 問答 檢索 方法 裝置 | ||
基于旅游領域知識圖譜的知識問答檢索方法及裝置,檢索方法包括以下步驟:使用Python程序爬取旅游網站信息,構建旅游領域知識圖譜;用戶輸入與旅游相關的自然語言問句;分析用戶提出的自然語言問句,對自然語言進行分詞,并對每個詞語進行詞性標注;以“實體?屬性?屬性值”的形式存儲知識圖譜,將問句與知識圖譜進行鏈接;根據鏈接出的“實體”和“屬性”,從知識圖譜中查詢相關三元組,并返回屬性值。本發(fā)明同時還公開了實現上述方法的裝置、終端設備和計算機可讀存儲介質,能夠為游客提供方便有效的旅游信息查詢服務。
技術領域
本發(fā)明屬于人工智能及自然語言處理領域,具體涉及一種基于旅游領域知識圖譜的知識問答檢索方法及裝置,實現對用戶提出的自然語言問句分析整理,從知識圖譜中返回答案。
背景技術
隨著社會的進步,人們的生活水平不斷提高,對于出游質量的要求也越來越高,多數情況下游客會根據在網上查詢的旅游信息來制定出游計劃。但是,游客使用傳統(tǒng)的搜索引擎進行信息檢索時,搜索引擎只能根據用戶輸入的關鍵詞來返回相對應的網頁,用戶還需要查詢多個網頁才能找到最終的結果。伴隨著數據信息量的極速增加,這種信息檢索方式會返回太多冗余信息,不能滿足人們想在海量數據中高效獲取準確答案的需求。知識問答作為信息搜索的升華,功能在于允許用戶以自然語言的方式進行提問并返回給用戶簡短而準確的答案。
知識圖譜是一張巨大的語義網絡,以“實體-屬性-屬性值”或“實體-關系-實體”這樣的三元組方式存儲,它的出現為管理當今大數據環(huán)境下的復雜數據資源提供了一種更為有效的途徑。基于知識圖譜的知識問答系統(tǒng)能夠直接將自然語言問句和知識圖譜進行鏈接,通過遍歷三元組找出最終的實體或者屬性值返回給用戶。雖然,國內外目前對于問答系統(tǒng)的研究已經取得了很大的進展,特別是針對開放領域的基于知識圖譜的問答系統(tǒng)研究。但與此相反,目前我國對于特定領域的基于知識圖譜的問答系統(tǒng)研究還處于起步階段。為了解決游客對于旅游信息獲取不便捷的問題,亟需構建一個基于知識圖譜的旅游問答系統(tǒng)。
發(fā)明內容
本發(fā)明的目的在于針對上述現有技術中游客對于海量旅游信息查詢不便的問題,提供一種基于旅游領域知識圖譜的知識問答檢索方法及裝置,幫助游客快速準確的找出檢索結果。
為了實現上述目的,本發(fā)明有如下的技術方案:
一種基于旅游領域知識圖譜的知識問答檢索方法,包括以下步驟:
使用Python程序爬取旅游網站信息,構建旅游領域知識圖譜;
用戶輸入與旅游相關的自然語言問句;
分析用戶提出的自然語言問句,對自然語言進行分詞,并對每個詞語進行詞性標注;
以“實體-屬性-屬性值”的形式存儲知識圖譜,將問句與知識圖譜進行鏈接;
根據鏈接出的“實體”和“屬性”,從知識圖譜中查詢相關三元組,并返回屬性值。
作為優(yōu)選,本發(fā)明基于旅游領域知識圖譜的知識問答檢索方法的一種實施例中,構建旅游領域知識圖譜包括兩種實現方法,一種方法是使用Python程序爬取旅游網站信息,將抽取出的旅游實體批次導入Neo4j圖數據庫,將錯誤數據進行修改,對于空缺數據進行補齊,如果沒有數據則使用null進行填充,并設置相關聯實體集之間的屬性,對設置好的數據進行處理得到“實體-屬性-屬性值”三元組;另一種方法是人工收集與旅游有關的實體和屬性值,包括景點、酒店、美食、門票、景點等級、地址以及消費價格,手動添加到知識圖譜當中。
作為優(yōu)選,本發(fā)明基于旅游領域知識圖譜的知識問答檢索方法的一種實施例中,采用結巴庫對用戶提出的自然語言問句進行分詞和詞性標注,將長句劃分為一個一個的詞語,并對詞語進行詞性標注;在此過程中,找出第一個詞性為名詞的詞語,如果該詞語的下一個詞語還是名詞,則將兩個詞語進行拼接,直至詞性不是名詞為止,將整合得到的詞語輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陜西師范大學,未經陜西師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010121654.5/2.html,轉載請聲明來源鉆瓜專利網。





