[發明專利]一種基于網絡文本語義分析的建筑評價方法有效
| 申請號: | 201611159450.0 | 申請日: | 2016-12-15 |
| 公開(公告)號: | CN106709824B | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 趙渺希;郭振松;梁景宇 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06Q50/08 | 分類號: | G06Q50/08 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李君 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網絡 文本 語義 分析 建筑 評價 方法 | ||
1.一種基于網絡文本語義分析的建筑評價方法,其特征在于:所述方法包括以下步驟:
S1、選取專業建筑論壇,利用Locoy Spider軟件對網絡文本進行獲取,并進行篩選整理;
S2、通過結巴分詞工具及漢語詞頻分析工具進行網絡文本的語義分析,并與現代漢語語料庫分詞類詞頻表進行篩選匹配和非參數檢驗,建立網絡建筑專業語料庫;
S3、通過對建筑個案進行特征詞匯分析,將建筑個案特征詞匯與網絡建筑專業語料庫進行比較,分析網絡群眾與專業建筑設計師對于建筑個案的關注差異;
S4、將建筑個案的整體評論數據根據不同的建筑方案進行分類,分析網絡群眾對于不同方案的關注要素;
步驟S3中,所述通過對建筑個案進行特征詞匯分析,將建筑個案特征詞匯與網絡建筑專業語料庫進行比較,分析網絡群眾與專業建筑設計師對于建筑個案的關注差異,具體包括:
S31、將篩選整理后的建筑個案評論數據轉換成txt文本格式,并利用結巴中文分詞工具進行分詞,形成建筑個案評論的詞匯列表;
S32、根據步驟S31形成的詞匯列表,利用漢語詞頻統計工具對建筑個案評論數據統計各項詞匯的頻數、重復數、百分比和去重百分比;
S33、根據語料庫在線網站中現代漢語語料庫的詞語頻率表,匹配獲取一定數量的詞匯樣本以及該詞匯樣本在建筑個案評論和現代整體漢語語料庫的詞頻數;
S34、對兩組詞頻數據進行標準歸一化處理;
S35、將標準化處理后的數據導入SPSS軟件中,利用兩配對樣本非參數檢驗命令進行兩組詞頻數的非參數檢驗分析,判斷兩配對樣本來自的總體分布是否存在顯著性差異;
S36、當兩配對樣本來自的總體分布存在顯著性差異時,基于TextRank算法分析建筑個案詞匯的重要性;
S37、根據步驟S36形成的詞匯重要性數據,將建筑個案詞匯重要性由高到低進行排序,并根據語料庫在線網站中現代漢語語料庫的詞語頻率表,將其中出現的現代漢語語料庫高頻詞匯進行篩選剔除,剩余詞匯作為建筑個案特征詞匯;
S38、將步驟S37形成的建筑個案特征詞匯與網絡建筑專業語料庫進行比較,分析網絡群眾與專業建筑設計師對于建筑個案的關注差異。
2.根據權利要求1所述的一種基于網絡文本語義分析的建筑評價方法,其特征在于:步驟S1中,所述選取專業建筑論壇,利用Locoy Spider軟件對網絡文本進行獲取,并進行篩選整理,具體包括:
S11、選取評論樣本數量充足的專業建筑論壇作為數據來源;
S12、利用Locoy Spider軟件編輯新建火車頭任務,通過分析專業建筑論壇網頁結構的源代碼,選取前后相應的字段作為抓取所需網頁信息的標識字符串,爬取的主要標簽信息包括專業建筑論壇主題、評論用戶名稱、評論時間和評論內容;
S13、在火車頭任務的采集內容規則中進行設置,運行火車頭任務爬取相關數據;
S14、將獲取的評論數據按照專業建筑論壇主題、評論用戶名稱、評論時間和評論內容的標簽進行完善和整理,并剔除專業建筑論壇公告和廣告帖子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611159450.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:印刷裝置、印刷裝置中的異物去除方法
- 下一篇:具有圓蓋的壁爐管道清潔刷





