[發(fā)明專(zhuān)利]一種構(gòu)建公平的鏈接預(yù)測(cè)評(píng)估系統(tǒng)的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810812169.5 | 申請(qǐng)日: | 2018-07-23 |
| 公開(kāi)(公告)號(hào): | CN109086373B | 公開(kāi)(公告)日: | 2021-01-12 |
| 發(fā)明(設(shè)計(jì))人: | 汪鵬;肖君彥;孟越 | 申請(qǐng)(專(zhuān)利權(quán))人: | 東南大學(xué) |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F16/635;G06Q50/00 |
| 代理公司: | 南京眾聯(lián)專(zhuān)利代理有限公司 32206 | 代理人: | 蔣昱 |
| 地址: | 210096 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 構(gòu)建 公平 鏈接 預(yù)測(cè) 評(píng)估 系統(tǒng) 方法 | ||
本發(fā)明公開(kāi)了一種可構(gòu)建公平有效評(píng)估不同鏈接預(yù)測(cè)方法評(píng)測(cè)系統(tǒng)的方法。提出了一種自動(dòng)收集、選取和生成測(cè)試數(shù)據(jù)集的通用方法,其中包含兩種算法:基于層次聚類(lèi)的數(shù)據(jù)集二叉聚類(lèi)樹(shù)構(gòu)建算法和基于最深葉節(jié)點(diǎn)優(yōu)先的數(shù)據(jù)集選擇算法。提出了一種基于網(wǎng)絡(luò)拓?fù)渲笜?biāo)的數(shù)據(jù)集難度系數(shù)度量方法,其中利用了最優(yōu)子集回歸算法進(jìn)行難度系數(shù)的科學(xué)度量。提供了一套易用的訪問(wèn)接口和操作數(shù)據(jù)集的API的設(shè)計(jì)標(biāo)準(zhǔn)和具體實(shí)現(xiàn),使得新鏈接預(yù)測(cè)方法可方便地進(jìn)行評(píng)測(cè)。相較于其他評(píng)測(cè)方法,本發(fā)明方法可公平地比較不同鏈接預(yù)測(cè)方法之間的性能優(yōu)劣,并且能夠有效地評(píng)估鏈接預(yù)測(cè)方法的通用性。
技術(shù)領(lǐng)域
本發(fā)明涉及評(píng)測(cè)系統(tǒng)構(gòu)建領(lǐng)域,特別是涉及一種構(gòu)建公平的鏈接預(yù)測(cè)評(píng)估系統(tǒng)的方法。
背景技術(shù)
社交網(wǎng)絡(luò)鏈接預(yù)測(cè)作為數(shù)據(jù)挖掘領(lǐng)域的熱門(mén)問(wèn)題之一,在線上社交網(wǎng)絡(luò)中的好友推薦、電子商務(wù)中的商品推薦等領(lǐng)域中擁有重要的應(yīng)用前景。應(yīng)用鏈接預(yù)測(cè)的技術(shù)可以幫助公司挖掘潛在的社交關(guān)系,增加用戶(hù)粘性,提升公司用戶(hù)給公司帶來(lái)的商業(yè)價(jià)值。
至今,已有許多基于不同視角的社交網(wǎng)絡(luò)鏈接預(yù)測(cè)技術(shù)和相關(guān)工作被相繼提出。這些方法和工作雖都聲稱(chēng)自己提出的鏈接預(yù)測(cè)技術(shù)具有良好的性能,但由于不存在一種公平有效地統(tǒng)一評(píng)估平臺(tái),因此無(wú)法客觀地比較這些不同的鏈接預(yù)測(cè)技術(shù)之間的優(yōu)劣,因而對(duì)篩選這些鏈接預(yù)測(cè)技術(shù)帶來(lái)了困難。同時(shí),現(xiàn)在仍沒(méi)有一種有效的評(píng)估技術(shù),可以對(duì)每一種鏈接預(yù)測(cè)技術(shù)其適用領(lǐng)域進(jìn)行明確界定,導(dǎo)致很難根據(jù)實(shí)際應(yīng)用場(chǎng)景的不同選擇最合適該場(chǎng)景的鏈接預(yù)測(cè)技術(shù),進(jìn)而帶來(lái)性能上的損失。
本發(fā)明的目的是對(duì)現(xiàn)有的鏈接預(yù)測(cè)技術(shù)進(jìn)行公平評(píng)估,對(duì)比不同鏈接預(yù)測(cè)技術(shù)的優(yōu)劣。在本領(lǐng)域現(xiàn)有的技術(shù)僅是發(fā)明人根據(jù)先驗(yàn)知識(shí),主觀地選取的固定的若干評(píng)測(cè)數(shù)據(jù)集,并使用這些評(píng)測(cè)數(shù)據(jù)集對(duì)鏈接預(yù)測(cè)方法進(jìn)行評(píng)估,缺乏一套系統(tǒng)化的、客觀的流程來(lái)收集、選擇評(píng)測(cè)數(shù)據(jù)集。由于實(shí)驗(yàn)表明評(píng)測(cè)數(shù)據(jù)集的選取對(duì)鏈接預(yù)測(cè)方法的實(shí)驗(yàn)結(jié)果有很大影響,缺少這套系統(tǒng)化客觀的流程會(huì)導(dǎo)致利用現(xiàn)有技術(shù)評(píng)測(cè)不同鏈接預(yù)測(cè)方法的不公平性。并且,現(xiàn)有的技術(shù)缺乏對(duì)鏈接預(yù)測(cè)方法通用性的研究,即缺少對(duì)特定鏈接預(yù)測(cè)方法是否會(huì)在不同類(lèi)網(wǎng)絡(luò)數(shù)據(jù)集上呈現(xiàn)性能差異性的分析。
發(fā)明內(nèi)容
為了以上問(wèn)題,本發(fā)明提供一種構(gòu)建公平的鏈接預(yù)測(cè)評(píng)估系統(tǒng)的方法,可公平地比較不同鏈接預(yù)測(cè)方法之間的性能優(yōu)劣,并且能夠有效地評(píng)估鏈接預(yù)測(cè)方法的通用性,為達(dá)此目的,本發(fā)明提供一種構(gòu)建公平的鏈接預(yù)測(cè)評(píng)估系統(tǒng)的方法,具體步驟如下:
1)收集原始數(shù)據(jù)集的方法:評(píng)測(cè)系統(tǒng)用以評(píng)估不同鏈接預(yù)測(cè)方法的測(cè)試數(shù)據(jù)集應(yīng)是公開(kāi)、被廣泛接受的數(shù)據(jù)集,使用爬蟲(chóng)程序抓取互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)集倉(cāng)庫(kù)相應(yīng)網(wǎng)頁(yè),并構(gòu)造網(wǎng)頁(yè)對(duì)應(yīng)HTML代碼的DOM樹(shù),依據(jù)該DOM樹(shù)中下載標(biāo)簽對(duì)應(yīng)的超鏈接爬取滿足該要求的數(shù)據(jù)集,并根據(jù)其應(yīng)用場(chǎng)景將收集得到的數(shù)據(jù)集分為若干類(lèi)別;
2)計(jì)算每一類(lèi)別應(yīng)選數(shù)據(jù)集數(shù)量:有效的評(píng)測(cè)系統(tǒng)應(yīng)保證數(shù)據(jù)集冗余度較小,因此需對(duì)每一類(lèi)別中應(yīng)選出的作為評(píng)測(cè)數(shù)據(jù)集的數(shù)據(jù)集數(shù)量加以限制,每一類(lèi)別對(duì)應(yīng)的科研文獻(xiàn)數(shù)量越多,則可說(shuō)明該類(lèi)別的研究熱度越高,所以該類(lèi)別所選出的評(píng)測(cè)數(shù)據(jù)集數(shù)量應(yīng)比研究熱度小的類(lèi)別所選出的數(shù)量要多,以滿足有效評(píng)估該類(lèi)別中過(guò)往和將來(lái)提出的鏈接預(yù)測(cè)方法的需求,使用交叉熵來(lái)衡量應(yīng)選數(shù)據(jù)集數(shù)量在類(lèi)別上的分布與科研文獻(xiàn)在類(lèi)別上的分布之間的相似程度,并以該相似程度為目標(biāo)函數(shù),使用最優(yōu)化算法計(jì)算得到最優(yōu)的應(yīng)選數(shù)據(jù)集數(shù)量在類(lèi)別上的分布;
3)基于層次聚類(lèi)的數(shù)據(jù)集二叉聚類(lèi)樹(shù)構(gòu)建算法:自每一類(lèi)別選出的評(píng)測(cè)數(shù)據(jù)集應(yīng)具有代表性,亦即選出的評(píng)測(cè)數(shù)據(jù)集應(yīng)與盡可能多的同類(lèi)數(shù)據(jù)集相似,為衡量同類(lèi)數(shù)據(jù)集間的相似度,采用層次聚類(lèi)的思想,自頂向下根據(jù)同類(lèi)數(shù)據(jù)集的數(shù)據(jù)集特性和網(wǎng)絡(luò)拓?fù)鋵傩詫?duì)同類(lèi)數(shù)據(jù)集進(jìn)行劃分進(jìn)而構(gòu)建二叉聚類(lèi)樹(shù);
4)基于最深葉節(jié)點(diǎn)優(yōu)先的數(shù)據(jù)集選擇算法:構(gòu)建完二叉聚類(lèi)樹(shù)后,需根據(jù)每一類(lèi)別對(duì)應(yīng)的聚類(lèi)樹(shù)空間結(jié)構(gòu),從中選取出代表該類(lèi)別的若干數(shù)據(jù)集,選擇過(guò)程自聚類(lèi)樹(shù)根節(jié)點(diǎn)的較大子節(jié)點(diǎn)開(kāi)始,遞歸地對(duì)每一非葉節(jié)點(diǎn)選擇代表該非葉節(jié)點(diǎn)的數(shù)據(jù)集,直到已選擇出2)中所計(jì)算出的該類(lèi)別應(yīng)選數(shù)據(jù)集數(shù)量的數(shù)據(jù)集為止;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810812169.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時(shí)間序列預(yù)測(cè)模型適用性量化的預(yù)測(cè)模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類(lèi)預(yù)測(cè)方法及裝置、預(yù)測(cè)模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測(cè)的方法及裝置
- 圖像預(yù)測(cè)方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 文本預(yù)測(cè)方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





