[發明專利]一種基于集成學習數據挖掘技術的旅游景區評價信息質量有效性分析方法在審
| 申請號: | 202210479219.9 | 申請日: | 2022-05-05 |
| 公開(公告)號: | CN115018255A | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 宋濤;郭佳怡;唐矛寧;韋艷芳 | 申請(專利權)人: | 湖州師范學院 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q50/14;G06F16/35;G06F40/284;G06F40/30 |
| 代理公司: | 深圳泛航知識產權代理事務所(普通合伙) 44867 | 代理人: | 甘偉 |
| 地址: | 313000 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 集成 學習 數據 挖掘 技術 旅游 景區 評價 信息 質量 有效性 分析 方法 | ||
1.一種基于集成學習數據挖掘技術的旅游景區評價信息質量有效性分析方法,其特征在于:包括以下工作步驟:
第一步:構建文本有效性評價指標體系;
S101、時效性
評論文本的閱讀時間和評論發布時間的差異作為評論時效性的量化值,設置參數σ,評論及時性(X_1)的取值范圍控制在[0-10],計算公式為:X_1=[T_max-(T_w-T_r)]/σ;
S102、情感性
評論文本中含有的“非常好、滿意、差評、失望”之類情感詞語,可以直接表達出游客對目的地的態度,也可以指導其他游客的旅游選擇,用情感詞的頻率很難表達評論中表述的積極或消極情緒的強度,因此根據情感詞典中對應詞的相似度對采集到的文本進行評分,并考慮程度副詞和否定詞對情感值計算的影響,并加權計算出句子情感強度,輸出評論文本的情感極性和強度;
S103、相關性
評論文本的相關性即評論中產品特征的豐富性,由評論中包含的目的屬性特征詞來量化,屬性特征詞通常為名詞或形容詞,是目的地本身及其相關服務的客觀表達,提取文本細節內容,通過分詞、詞性標注處理得到目的地評論詞集合C1,使用詞頻統計對名詞和形容詞進行要素量化,得到屬性特征詞集C2,構建空間向量模型,匹配評論詞集C1和屬性特征詞集C2,統計評論中每個特征詞的出現頻率;
S104、完整性
評論文本的完整性主要是指對旅游目的地特征的詳細描述,需要統計每條評論的字數,統計所得字符數分布較為不均,對字符數進行取對數,Length=Ln(Nr),其中Nr為評論字數;
S105、可理解性
評論文本的可理解性指文本前后的關聯性,利用語義文本向量度量評論的可理解性,向量語義的概念是將一個單詞表示為多維語義空間的一個點,表示單詞的向量嵌入到特定的向量空間中;
第二步:關聯分析
S201、DBSCAN聚類分析
對評論效用數據進行標準化處理,確定算法參數的取值,尋找核心點形成臨時聚類族,合并臨時聚類族得到聚類族;
S202、關聯規則挖掘
通過Apriori算法進行挖掘;
第三步:構建基于集成學習數據挖掘技術的分類模型,通過隨機森林算法建立文本分類模型;
S301、隨機森林分類模型的三個參數選擇
S3011、nodesize表示包含樣本的葉節點數,節點大小為1表示分類,5表示回歸,取nodesize=1;
S3012、ntree表示森林中樹的數目;
S3013、mtry表示每個節點的候選特征數;
S302、隨機森林分類模型效果評價
采用統計學領域常見的準確率(Accuracy)、精確率(Precision)、召回率(Recall)和綜合評價指標(F-measure,簡記為F1值)進行評估;
對預先給定的評價文本數據經過測試,結果顯示準確率為82.35%,即所有被預測的樣本,預測正確的概率為82.35%;精確率為80.77%,說明分類器識別樣本的能力較好;召回率為98.45%,表示被預測的所有正樣本,能夠被正確預測的占比;F1值是一個綜合的評價指標,為78.02%。
2.根據權利要求1所述的一種基于集成學習數據挖掘技術的旅游景區評價信息質量有效性分析方法,其特征在于:所述文本有效性評價指標體系從信息內容質量和信息表達形式質量兩方面進行文本有效性評價,信息內容質量包括情感性、時效性、相關性三個指標,信息表達形式質量包括完整性和可理解性兩個指標。
3.根據權利要求1所述的一種基于集成學習數據挖掘技術的旅游景區評價信息質量有效性分析方法,其特征在于:所述T_max是評論發布時間和評論閱讀時間之間的最大差值,T_w是評論發布時間,T_r是評論閱讀時間,σ取值為T_max/10。
4.根據權利要求1所述的一種基于集成學習數據挖掘技術的旅游景區評價信息質量有效性分析方法,其特征在于:所述DBSCAN聚類分析是一種簡單有效的數據挖掘技術,聚類是按照一定的標準將一些事物劃分為若干類別的過程,相似的被聚為一類,不相似的被聚為不同的類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖州師范學院,未經湖州師范學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210479219.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種醇鹽的制備方法
- 下一篇:一種糧堆溫度插值預測方法及裝置
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





