[發明專利]實現觀點搜索引擎排序的方法有效
| 申請號: | 200810057879.8 | 申請日: | 2008-02-20 |
| 公開(公告)號: | CN101515269A | 公開(公告)日: | 2009-08-26 |
| 發明(設計)人: | 繆慶亮;戴汝為;李秋丹;王春恒 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司 | 代理人: | 周國城 |
| 地址: | 100080北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實現 觀點 搜索引擎 排序 方法 | ||
1.一種實現觀點搜索引擎排序的方法,其特征在于,該方法包括:
步驟S1:使用網絡爬蟲對用戶評論網頁進行抓取,對抓取的網頁進行預處理,從預處理后的網頁中提取出用戶評論信息;
步驟S2:使用數據挖掘技術從該用戶評論信息中提取產品的屬性,并確定屬性評論信息的極性,構建評論信息庫;
步驟S3:轉換該評論信息庫中所有用戶評論信息文檔的格式,構建用戶評論信息文檔的層次結構,該用戶評論信息文檔的層次結構用于表示用戶評論信息中的元數據信息和用戶評論信息的具體內容,在用戶評論信息的具體內容表示上以用戶評論信息中含有產品屬性和觀點極性的評論句子為單位,評論句子包括該句子含有的產品屬性、觀點極性和句子的具體內容;
步驟S4:對轉換以后的用戶評論信息建立倒排序索引,該倒排序索引用于存儲用戶評論信息中的元數據,同時索引了評論句子的具體內容,該倒排序索引是建立在句子層次上的索引,而不是在用戶評論文檔層次上的索引;
步驟S5:以評論信息的相關性、評論信息的品質因子、評論信息的時間維度信息為關鍵詞對建立倒排序索引的用戶評論信息進行排序;
步驟S6:對搜索出的用戶評論信息進行統計分析,將用戶評論信息隨時間變化的趨勢信息,以及對于某種產品屬性的正反面評價對比信息進行可視化。
2.根據權利要求1所述的實現觀點搜索引擎排序的方法,其特征在于,步驟S1中所述對用戶評論網頁進行抓取,首先獲得電子商務網站的URL網址,然后利用抓取器采用寬度優先抓取的策略對這些電子商務網站進行抓取。
3.根據權利要求1所述的實現觀點搜索引擎排序的方法,其特征在于,步驟S1中所述提取出用戶評論信息采用RoadRunner算法對抓取的用戶評論信息網頁進行提取。
4.根據權利要求1所述的實現觀點搜索引擎排序的方法,其特征在于,步驟S2中所述數據挖掘技術為association?rule?mining技術,所述確定屬性評論信息的極性是確定用戶對該屬性的評論是正面的還是反面的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810057879.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于圖像的個性化真實感虛擬人物造型方法
- 下一篇:顯示卡及其散熱方法





