[發(fā)明專利]實現(xiàn)觀點搜索引擎排序的方法有效
| 申請?zhí)枺?/td> | 200810057879.8 | 申請日: | 2008-02-20 |
| 公開(公告)號: | CN101515269A | 公開(公告)日: | 2009-08-26 |
| 發(fā)明(設計)人: | 繆慶亮;戴汝為;李秋丹;王春恒 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司 | 代理人: | 周國城 |
| 地址: | 100080北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實現(xiàn) 觀點 搜索引擎 排序 方法 | ||
技術領域
本發(fā)明涉及信息檢索和搜索引擎技術領域,是一種實現(xiàn)觀點搜索引擎排序的方法。
背景技術
二十一世紀是信息化的時代,第三產(chǎn)業(yè)在各國的比重不斷上升,特別是服務業(yè),信息服務業(yè)成為21世紀的主導產(chǎn)業(yè),這導致了電子商務的產(chǎn)生和發(fā)展,在全球信息化大勢所驅的影響下,各國的電子商務不斷的改進和完善,電子商務成為各個國家和各大公司爭奪的焦點。而在我國,計算機與網(wǎng)絡技術的普及與發(fā)展,電子商務迅速崛起,眾多的信息技術企業(yè)、風險投資公司、生產(chǎn)流通企業(yè)紛紛開展電子商務。
2007年,世界電子商務繼續(xù)快速發(fā)展,成為經(jīng)濟全球化的助推器。電子商務的廣泛應用降低了企業(yè)經(jīng)營、管理和商務活動的成本,促進了資金、技術、產(chǎn)品、服務和人員在全球范圍的流動,推動了經(jīng)濟全球化的發(fā)展。目前,電子商務的應用已經(jīng)成為決定企業(yè)國際競爭力的重要因素,以美國亞馬遜、EBAY以及中國的阿里巴巴等公司的成功說明電子商務正在引領世界服務業(yè)發(fā)展,并影響著未來商業(yè)發(fā)展模式。
從整體情況看,2007年世界電子商務交易額達12.8萬億美元,占全球商品交易的18%。以美國為首的發(fā)達國家,仍然是電子商務主力軍,中國等發(fā)展中國家電子商務異軍突起,日益成為國際電子商務市場的重要力量。2007年,B2B電子商務仍占主導地位,B2C、G2C、G2B、C2C等電子商務發(fā)展迅猛,呈現(xiàn)多元發(fā)展態(tài)勢。以大型骨干企業(yè)為龍頭的行業(yè)電子商務是B2B主流力量,ASP等第三方電子商務平臺成為中小企業(yè)電子商務應用的成功模式之一。
當在網(wǎng)上購物時,用戶面臨的一個很大的問題就是如何在眾多的電子商務網(wǎng)站上找到自己想要的物品評價信息,基于用戶評論信息的觀點搜索引擎是解決這個問題的關鍵,當用戶輸入一個產(chǎn)品或產(chǎn)品屬性時,觀點搜索引擎就按照關鍵詞語到索引文件中查找,并返回最相關的產(chǎn)品觀點信息。
目前針對用戶評論信息的觀點搜索引擎還處在研究階段。并且存在以下問題,第一沒有充分考慮到評論信息的品質高低。第二沒有考慮到時間維度信息在搜索結果排序中的重要性。第三沒有對搜索結果進行統(tǒng)計分析及可視化。
發(fā)明內容
(一)要解決的技術問題
有鑒于此,為了為潛在用戶提供方便快捷的觀點信息服務,以及解決現(xiàn)有的觀點搜索排序方法存在的問題,本發(fā)明的主要目的是提供一種實現(xiàn)觀點搜索引擎排序的方法,以克服現(xiàn)有觀點搜索引擎排序方法存在的問題,如只考慮觀點信息的相關性,沒有對搜索結果進行可視化等缺陷,為潛在用戶提供更有效的觀點信息服務。
(二)技術方案
為了達到上述目的,本發(fā)明提供了一種實現(xiàn)觀點搜索引擎排序的方法,該方法包括:
步驟S1:使用網(wǎng)絡爬蟲對用戶評論網(wǎng)頁進行抓取,對抓取的網(wǎng)頁進行預處理,從預處理后的網(wǎng)頁中提取出用戶評論信息;
步驟S2:使用數(shù)據(jù)挖掘技術從該用戶評論信息中提取產(chǎn)品的屬性,并確定屬性評論信息的極性,構建評論信息庫;
步驟S3:轉換該評論信息庫中所有用戶評論信息文檔的格式,構建用戶評論信息文檔的層次結構,該用戶評論信息文檔的層次結構用于表示用戶評論信息中的元數(shù)據(jù)信息和用戶評論信息的具體內容,在用戶評論信息的具體內容表示上以用戶評論信息中含有產(chǎn)品屬性和觀點極性的評論句子為單位,評論句子包括該句子含有的產(chǎn)品屬性、觀點極性和句子的具體內容;
步驟S4:對轉換以后的用戶評論信息建立倒排序索引,該倒排序索引用于存儲用戶評論信息中的元數(shù)據(jù),同時索引了評論句子的具體內容,該倒排序索引是建立在句子層次上的索引,而不是在用戶評論文檔層次上的索引;
步驟S5:以評論信息的相關性、評論信息的品質因子、評論信息的時間維度信息為關鍵詞對建立倒排序索引的用戶評論信息進行排序;
步驟S6:對搜索出的用戶評論信息進行統(tǒng)計分析,將用戶評論信息隨時間變化的趨勢信息,以及對于某種產(chǎn)品屬性的正反面評價對比信息進行可視化。
優(yōu)選地,步驟S1中所述對用戶評論網(wǎng)頁進行抓取,首先獲得電子商務網(wǎng)站的URL網(wǎng)址,然后利用抓取器采用寬度優(yōu)先抓取的策略對這些電子商務網(wǎng)站進行抓取。
優(yōu)選地,步驟S1中所述提取出用戶評論信息采用RoadRunner算法對抓取的用戶評論信息網(wǎng)頁進行提取。
優(yōu)選地,步驟S2中所述數(shù)據(jù)挖掘技術為association?rule?mining技術,所述確定屬性評論信息的極性是確定用戶對該屬性的評論是正面的還是反面的。
(三)有益效果
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經(jīng)中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810057879.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:基于圖像的個性化真實感虛擬人物造型方法
- 下一篇:顯示卡及其散熱方法
- 互動業(yè)務終端、實現(xiàn)系統(tǒng)及實現(xiàn)方法
- 街景地圖的實現(xiàn)方法和實現(xiàn)系統(tǒng)
- 游戲實現(xiàn)系統(tǒng)和游戲實現(xiàn)方法
- 圖像實現(xiàn)裝置及其圖像實現(xiàn)方法
- 增強現(xiàn)實的實現(xiàn)方法以及實現(xiàn)裝置
- 軟件架構的實現(xiàn)方法和實現(xiàn)平臺
- 數(shù)值預報的實現(xiàn)方法及實現(xiàn)系統(tǒng)
- 空調及其冬眠控制模式實現(xiàn)方法和實現(xiàn)裝置以及實現(xiàn)系統(tǒng)
- 空調及其睡眠控制模式實現(xiàn)方法和實現(xiàn)裝置以及實現(xiàn)系統(tǒng)
- 輸入設備實現(xiàn)方法及其實現(xiàn)裝置





