[發明專利]基于房地產行業的詞庫構建方法及系統有效
| 申請號: | 201810146272.0 | 申請日: | 2018-02-12 |
| 公開(公告)號: | CN108491374B | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 董紀昌;鄭長敬;董志;劉穎;李秀婷 | 申請(專利權)人: | 鄭長敬 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/33;G06F16/338;G06F16/35 |
| 代理公司: | 北京酷愛智慧知識產權代理有限公司 11514 | 代理人: | 高江玲 |
| 地址: | 100040 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 房地產行業 詞庫 構建 方法 系統 | ||
1.一種基于房地產行業的詞庫構建方法,其特征在于,包括以下步驟:
采用網絡爬蟲技術從網絡媒體抓取媒體信息,得到原始數據;所述網絡媒體包括微博、網頁、論壇和貼吧;所述原始數據包括微博數據、網頁數據、論壇數據以及貼吧數據;所述微博數據包括媒體層面數據、企業層面數據、政府層面數據、研究機構數據以及個人層面數據;所述媒體層面數據來源于房產網、官方微信、周刊、欄目節目和信息平臺;所述企業層面數據來源于地產公司;所述政府層面數據來源于房產管理處、建設局、交易中心、國土資源規劃政府層面;所述研究機構數據來源于協會、研究院、高校研究機構;所述個人層面數據來源于個人的微博平臺;
采用文本處理技術對原始數據進行去噪、解析和分詞,得到文本數據;
采用數據挖掘技術分析文本數據的屬性,得到清洗數據;
對清洗數據進行篩選,得到關鍵詞數據庫;
所述對清洗數據進行篩選,得到關鍵詞數據庫具體包括:
針對不同地區設置影響因素,根據不同地區的影響因素對所述清洗數據進行篩選,得到初始數據;所述影響因素包括供給層面和需求層面;供給層面包括土地供給與使用、房地產開發投資情況、房地產開發建設情況;所述土地供給與使用包括土地供給、土地使用和土地購置面積;所述房地產開發投資情況包括開發貸款、開發資金、資金結構、各類投資、信貸來源和資金鏈;所述房地產開發建設情況包括新開工、竣工、待售、供給和建設;所述需求層面包括銷售情況和成交需求;所述銷售情況包括銷售額、銷售面積、購房支付能力和購房意愿;所述成交需求投資需求、投機需求、剛性需求和改善性需求;
根據地區下屬的管轄區域對初始數據進行擴充,得到擴充數據;
定義擴充數據中的核心詞條,針對核心詞條在擴充數據中補充長尾關鍵詞和短尾關鍵詞,組合所述初始數據、擴充數據、長尾關鍵詞和短尾關鍵詞,以得到所述關鍵詞數據庫;
該方法在對清洗數據進行篩選,得到關鍵詞數據庫之后,還包括:
確定所述關鍵詞數據庫中每個數據的文檔特征;
基于所述文檔特征進行情感分析,得到輿情數據庫;
所述基于所述文檔特征進行情感分析,得到輿情數據庫具體包括:
設置情緒詞典,情緒詞典中包含多種情緒信息;
利用情緒詞典、所述文檔特征對所述關鍵詞數據庫的數據進行分類,將關鍵詞數據庫的數據歸類到對應的情緒信息下,得到輿情數據庫。
2.根據權利要求1所述基于房地產行業的詞庫構建方法,其特征在于,
所述組合所述初始數據、擴充數據、長尾關鍵詞和短尾關鍵詞,以得到所述關鍵詞數據庫具體包括:
對所述初始數據、擴充數據、長尾關鍵詞和短尾關鍵詞進行修正,得到修正數據;
根據修正數據得到所述關鍵詞數據庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭長敬,未經鄭長敬許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810146272.0/1.html,轉載請聲明來源鉆瓜專利網。





