[發明專利]基于主題的旅游本體構建方法有效
| 申請號: | 201710992960.4 | 申請日: | 2017-10-23 |
| 公開(公告)號: | CN107679226B | 公開(公告)日: | 2019-03-05 |
| 發明(設計)人: | 林小光;杜佩文;鐘坤華;張矩 | 申請(專利權)人: | 中國科學院重慶綠色智能技術研究院 |
| 主分類號: | G06F16/9537 | 分類號: | G06F16/9537;G06F16/9535;G06F16/35;G06Q50/14;G06F17/27 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400714 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 旅游項目 興趣點 游玩 矩陣 旅游信息化 描述性文字 爬蟲 動態規劃 旅游景點 旅游網站 旅游線路 旅游信息 人工篩選 生成模型 文本分詞 文檔主題 旅游 關聯度 信息熵 分詞 去噪 去重 時長 網站 文檔 詞語 搜索 評判 地域 景點 | ||
1.基于主題的旅游本體構建方法,所述旅游本體包括類、關系、函數、屬性和實例五種元素,其特征在于:該方法包括以下步驟:
S1:通過Python語言和BeautifulSoup4庫對各大旅游信息類網站有關旅游景點描述性文字內容進行爬取;
S2:將爬取的數據進行去重去噪,并利用Java中文分詞器Ansj對文本進行分詞;
S3:使用文檔主題生成模型LDA對分詞結果進行訓練,得到“文檔-主題”矩陣,并提取出主題,作為興趣點;通過詞語相關性,計算主題之間的關聯度,然后將相關性大的興趣點歸集為大主題,作為本體的一級類;將各個景點根據“文檔-主題”矩陣具體分配到對應興趣點下,并利用景點的屬性描述景點;最后將分詞產生的關鍵詞進行人工篩選后,選出旅游項目,歸類到至對應景點;
S4:利用信息熵進行主題劃分效果的評判,信息熵越小主題劃分效果越好,找到最小的信息熵對應的本體參數;
S5:利用protege4.3框架進行本體的構建;
所述類為四級結構,包括主題、興趣點、景點和旅游項目;所述關系包括屬于、位于和包含;所述屬性包括開放時間、價格、最佳游玩季節、地域、別名和推薦游玩時間;所述實例包括景點和旅游項目;
所述在步驟S2中,根據旅游領域的知識,分詞的時候添加適用的常用詞表和停用詞表,使得分詞的結果滿足需求;
在步驟S3中,所述主題由十個詞描述,所述文檔與景點一一對應。
2.根據權利要求1所述的基于主題的旅游本體構建方法,其特征在于:所述BeautifulSoup4庫、Java中文分詞器Ansj以及protege4.3均為開源框架。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院重慶綠色智能技術研究院,未經中國科學院重慶綠色智能技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710992960.4/1.html,轉載請聲明來源鉆瓜專利網。





