[發(fā)明專利]LBSN中基于好友聚類的社交搜索評(píng)價(jià)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710335698.6 | 申請(qǐng)日: | 2017-05-12 |
| 公開(公告)號(hào): | CN107194560B | 公開(公告)日: | 2020-11-27 |
| 發(fā)明(設(shè)計(jì))人: | 曹玖新;孫洋;周丹丹 | 申請(qǐng)(專利權(quán))人: | 東南大學(xué) |
| 主分類號(hào): | G06Q10/06 | 分類號(hào): | G06Q10/06;G06Q50/00;G06F16/35 |
| 代理公司: | 南京眾聯(lián)專利代理有限公司 32206 | 代理人: | 杜靜靜 |
| 地址: | 211189 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | lbsn 基于 好友 社交 搜索 評(píng)價(jià) 方法 | ||
1.一種LBSN中基于好友聚類的社交搜索評(píng)價(jià)方法,其特征在于,所述評(píng)價(jià)方法包括以下步驟,1)爬取的Foursquare真實(shí)數(shù)據(jù)集中有聯(lián)系人信息和位置信息,通過對(duì)數(shù)據(jù)的統(tǒng)計(jì)與分析,提取出聯(lián)系人特征、簽到特征、評(píng)價(jià)特征和時(shí)間特征,共15種數(shù)據(jù)類型,包括用戶ID、好友ID、簽到ID、簽到位置描述、簽到發(fā)生時(shí)區(qū)、簽到位置ID、簽到位置經(jīng)度、緯度、簽到位置名稱、簽到位置的類型ID、簽到位置的類型名稱、簽到發(fā)生時(shí)間、評(píng)價(jià)文本ID、評(píng)價(jià)文本內(nèi)容、評(píng)價(jià)發(fā)生時(shí)間,構(gòu)建社交搜索模型并給出形式化描述,篩選發(fā)生在紐約的數(shù)據(jù)集,這種方法同樣適用于其他城市;
2)從步驟1)處理好的數(shù)據(jù)集中提取位置名稱、位置類型、位置描述三種數(shù)據(jù)類型,構(gòu)建“位置名稱-文檔”式倒排索引,在此基礎(chǔ)上,基于Lucene技術(shù)構(gòu)建社交搜索引擎;
3)線上部分設(shè)計(jì)搜索算法,在基于搜索得分的位置排序部分,搜索用戶輸入搜索內(nèi)容,經(jīng)語(yǔ)義分詞產(chǎn)生話題,與步驟2)倒排索引中的文檔進(jìn)行相似度匹配,根據(jù)相關(guān)性得分索引出備選位置和基于得分的位置排序;
4)在搜索算法中基于社交得分的位置排序部分,從步驟1)處理好的數(shù)據(jù)集中提取聯(lián)系人數(shù)據(jù)、簽到數(shù)據(jù)和評(píng)價(jià)數(shù)據(jù),線下通過K-Means算法聚類搜索用戶的好友,通過KNN算法查找搜索用戶一定數(shù)量的最近鄰,線上通過這些最近鄰對(duì)搜索用戶施加社交影響,通過設(shè)計(jì)最近鄰的區(qū)域活躍度和對(duì)位置的評(píng)價(jià)兩個(gè)社交特征計(jì)算步驟3)中的備選位置的社交得分并排序;
5)在搜索算法中基于距離遠(yuǎn)近的位置排序部分,從步驟1)處理好的數(shù)據(jù)集中提取位置經(jīng)緯度數(shù)據(jù),通過地球上兩點(diǎn)間的距離公式,計(jì)算搜索用戶當(dāng)前位置和步驟3)中備選位置的各自距離,量化成得分并排序;
6)綜合步驟3)、步驟4)、步驟5)中的三種位置排序,構(gòu)建線性回歸模型并訓(xùn)練,得出最終的位置排序,即搜索結(jié)果。
2.根據(jù)權(quán)利要求1所述的LBSN中基于好友聚類的社交搜索評(píng)價(jià)方法,其特征在于,所述步驟1)中篩選發(fā)生在紐約的數(shù)據(jù)集的具體方法如下,為不同的數(shù)據(jù)特征建立不同的數(shù)據(jù)庫(kù)表,每個(gè)表中包含所有真實(shí)數(shù)據(jù)類型中的數(shù)據(jù)字段,將整個(gè)數(shù)據(jù)集導(dǎo)入數(shù)據(jù)庫(kù)即MySQL,再用SQL語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行處理,先通過時(shí)區(qū)這個(gè)字段提取出紐約的簽到記錄和評(píng)價(jià)信息,因?yàn)橛脩鬒D和位置ID都是各個(gè)表中的唯一字段,再通過表連接的方式處理數(shù)據(jù),處理后的數(shù)據(jù)有如下特性,保證用戶對(duì)位置既有簽到記錄又有評(píng)價(jià)信息。
3.根據(jù)權(quán)利要求1所述的LBSN中基于好友聚類的社交搜索評(píng)價(jià)方法,其特征在于,所述步驟2)中基于Lucene技術(shù)構(gòu)建社交搜索引擎具體如下,其中倒排索引是搜索引擎的核心數(shù)據(jù)結(jié)構(gòu),構(gòu)建倒排索引分為三步:
21)將位置名稱、位置類型和位置描述三種數(shù)據(jù)類型組合成文檔(document)作為后索引;
22)將位置名稱作為單詞term構(gòu)建前索引;
23)輸入關(guān)鍵字,通過語(yǔ)義分詞產(chǎn)生話題,與文檔做相似度計(jì)算,將得分高的一定數(shù)量的文檔選出,索引出相應(yīng)的位置名稱;
Lucene是一個(gè)構(gòu)建搜索引擎的Java框架,共有5個(gè)核心jar包:core、analyzer、highlighter、query和queryparser,通過導(dǎo)入jar包在eclipse開發(fā)環(huán)境中實(shí)現(xiàn)本發(fā)明的搜索引擎。
4.根據(jù)權(quán)利要求1所述的LBSN中基于好友聚類的社交搜索評(píng)價(jià)方法,其特征在于,所述步驟4)中,線下算法具體如下,通過K-Means算法聚類搜索用戶的好友,目的是使數(shù)據(jù)更加稠密,減小不利影響,將英文的評(píng)價(jià)文本通過TextBlob情感分析工具量化為得分,具體公式如下所示:
(1)基于簽到次數(shù)的修正余弦相似度計(jì)算公式:
其中,代表用戶i1在所有位置點(diǎn)的平均簽到數(shù)量;
(2)基于評(píng)價(jià)評(píng)分的修正余弦相似度計(jì)算公式:
其中,代表用戶i1對(duì)所有POI的平均評(píng)價(jià)得分;
(3)總的相似度計(jì)算公式:
(4)通過KNN算法查找搜索用戶的最近鄰,歐氏距離計(jì)算公式如下所示:
其中,cenk表示k個(gè)聚類中心向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710335698.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測(cè)或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉(cāng)儲(chǔ)、裝貨、配送或運(yùn)輸;存貨或庫(kù)存管理,例如訂貨、采購(gòu)或平衡訂單
G06Q10-10 .辦公自動(dòng)化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 液晶矩陣增/卸系統(tǒng)
- 一種基于用戶簽到相似度的好友推薦系統(tǒng)
- 一種應(yīng)用于LBSN網(wǎng)絡(luò)的基于地理標(biāo)簽的熱點(diǎn)區(qū)域事件探測(cè)系統(tǒng)
- LBSN中基于好友聚類的社交搜索評(píng)價(jià)方法
- LBSN中一種基于多維屬性挖掘的虛假評(píng)論可疑地點(diǎn)檢測(cè)方法
- 一種分布式環(huán)境下基于社會(huì)感知的空間索引方法
- 一種結(jié)合出行興趣與社交偏好的POI推薦方法
- 一種POI推薦方法及推薦系統(tǒng)
- 一種基于UPM模式的Flash接口設(shè)計(jì)方法
- 一種融入空間關(guān)系的POI推薦方法及推薦系統(tǒng)
- 一種好友動(dòng)態(tài)信息管理方法、系統(tǒng)及好友信息管理服務(wù)器
- 一種顯示好友的好友動(dòng)態(tài)的方法及系統(tǒng)
- 一種好友通知方法及裝置
- 一種微博中選擇好友的方法及裝置
- 基于即時(shí)通信工具的好友推薦方法及系統(tǒng)
- 一種挖掘潛在好友信息的方法、系統(tǒng)和設(shè)備
- 一種用于提供臨時(shí)擴(kuò)展空間的方法及系統(tǒng)
- 一種小成本計(jì)算擁有共同好友的好友方法
- 一種邀請(qǐng)好友加入社交群的方法和裝置
- 好友數(shù)據(jù)拉取方法、裝置、客戶端、服務(wù)器和存儲(chǔ)介質(zhì)
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對(duì)象搜索方法及裝置
- 針對(duì)嵌入式應(yīng)用上下文中的搜索的查詢意圖表達(dá)
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





