[發(fā)明專利]一種基于scrapy爬蟲架構及文本分析的商旅輿情分析方法在審
| 申請?zhí)枺?/td> | 202011076411.0 | 申請日: | 2020-10-10 |
| 公開(公告)號: | CN112148936A | 公開(公告)日: | 2020-12-29 |
| 發(fā)明(設計)人: | 蘇如春;孫少峰;練鏡鋒 | 申請(專利權)人: | 廣州瀚信通信科技股份有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F16/951;G06F16/958;G06K9/62;G06F40/279 |
| 代理公司: | 廣州專才專利代理事務所(普通合伙) 44679 | 代理人: | 曾嘉儀 |
| 地址: | 510310 廣東省廣州市天河區(qū)元崗橫路37號4203*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 scrapy 爬蟲 架構 文本 分析 商旅 輿情 方法 | ||
1.一種基于scrapy爬蟲架構及文本分析的商旅輿情分析方法,其特征在于:所述方法包括以下步驟:
獲得中文文本,進行處理和分割,得到文本特征;
對文本特征進行預處理,判斷是否將文本特征發(fā)送到詞庫;
詞庫根據(jù)文本特征獲得文本類別;
對文本進行輿情分析。
2.根據(jù)權利要求1所述的一種基于scrapy爬蟲架構及文本分析的商旅輿情分析方法,其特征在于:所述中文文本包括長文本和短文本;所述長文本包括新聞、博客和論壇文本;所述短文本包括論壇回復和微博。
3.根據(jù)權利要求2所述的一種基于scrapy爬蟲架構及文本分析的商旅輿情分析方法,其特征在于:所述獲得中文文本,進行處理和分割,得到文本特征具體為:
參數(shù)初始化:建立一個待匹配的關鍵詞列表,包含幾個用于描述輿情信息的關鍵詞以及與關鍵詞對應的主題號;待匹配的關鍵句型表包括描述輿情信息的句型和關鍵句型的主題號的多個正則表達式;建立從主題號到主題屬性和主題權重的映射表;
從待匹配關鍵詞表中讀取每個待匹配關鍵詞,將每個單詞添加到AC自動機的單詞樹前綴中,完成單詞樹構建;
從待匹配的關鍵句型表中讀取每個句型對應的正則表達式;
讀入分析對象頁面,提取分析對象頁面的正文部分;
掃描正文,匹配正文中出現(xiàn)的要害詞,計算每個要害詞出現(xiàn)的次數(shù),根據(jù)匹配的要害詞表,檢查每個要害詞對應的主題編號;
根據(jù)標點符號或空格將正文部分的內容分成幾個句子,刪除其中字符數(shù)小于設定長度的句子,對于剩余的句子,進行作為預先設定的最小句子長度閾值的關鍵句式匹配;
根據(jù)上述的匹配結果,確定正文部分的主題的組合,得到文本特征。
4.根據(jù)權利要求3所述的一種基于scrapy爬蟲架構及文本分析的商旅輿情分析方法,其特征在于:所述提取分析對象頁面的正文部分具體為:
使用正則表達式匹配方法,根據(jù)頁面的原始網(wǎng)址和頁面的HTML代碼中包含的關鍵代碼來判斷頁面的類型;
如果頁面屬于新聞或博客,則提取所有頁面段落,將頁面標題算作正文中的單獨段落;如果頁面屬于論壇,則對于每個討論帖,將海報的主帖部分和討論帖中海報字數(shù)大于第一設定字數(shù)的回復合并為正文,其他字數(shù)大于第二設定字數(shù)的后續(xù)帖子作為單獨的正文進行分析;如果該頁面屬于微博,則單詞數(shù)超過的每一個單詞都作為文本單獨分析。
5.根據(jù)權利要求3所述的一種基于scrapy爬蟲架構及文本分析的商旅輿情分析方法,其特征在于:所述關鍵句式匹配具體為:
讀出待匹配的關鍵句型表中的一個正則表達式,并將該句子與該正則表達式進行匹配;
如果正則表達式匹配成功,則該句子被識別為該正則表達式對應的關鍵句型,記錄該句型對應的主題號,該句型的出現(xiàn)頻率增加1;如果正則匹配不成功,則繼續(xù)執(zhí)行步驟:讀出待匹配的關鍵句型表中的一個正則表達式,并將該句子與該正則表達式進行匹配,直到所有正則表達式匹配完畢。
6.根據(jù)權利要求3所述的一種基于scrapy爬蟲架構及文本分析的商旅輿情分析方法,其特征在于:所述確定正文部分的主題的組合具體為:
對于長文本,一個主題中包含的主題詞或關鍵句子在文本中出現(xiàn)的次數(shù)不小于第一設定次數(shù),則認為正文部分與主題有關;對于短文本,如果一個主題中包含的關鍵詞或句子出現(xiàn)在文本中的數(shù)量不小于第二設定次數(shù),則認為該文本與該主題相關。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州瀚信通信科技股份有限公司,未經廣州瀚信通信科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011076411.0/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種自動去枝椏的圓木加工裝置
- 下一篇:集成式垃圾篩分設備
- 一種自動獲取xpath生成爬蟲腳本的方法及系統(tǒng)
- 一種解決Web證書認證的爬蟲方法
- 一種基于Scrapy框架的網(wǎng)絡數(shù)據(jù)的采集方法及裝置
- 一種基于Scrapy的數(shù)據(jù)采集方法
- 基于Scrapy的數(shù)據(jù)爬取方法、終端設備及計算機可讀存儲介質
- 一種海外服務器非結構數(shù)據(jù)采集系統(tǒng)及方法
- 基于Scrapy的網(wǎng)站URL爬取方法
- 一種基于Scrapy-Redis的分布式網(wǎng)絡爬蟲優(yōu)化方法
- 分布式爬蟲的集中管理系統(tǒng)
- 一種基于消息中間件的數(shù)據(jù)采集系統(tǒng)、方法及裝置





