[發(fā)明專利]一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)本體構(gòu)建方法有效
| 申請(qǐng)?zhí)枺?/td> | 201610115254.7 | 申請(qǐng)日: | 2016-02-29 |
| 公開(公告)號(hào): | CN105654144B | 公開(公告)日: | 2019-01-29 |
| 發(fā)明(設(shè)計(jì))人: | 吳天星;李丞;漆桂林 | 申請(qǐng)(專利權(quán))人: | 東南大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06Q50/00 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210009 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 機(jī)器 學(xué)習(xí) 社交 網(wǎng)絡(luò) 本體 構(gòu)建 方法 | ||
本發(fā)明公開了一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)本體構(gòu)建方法,主要用于處理社交網(wǎng)絡(luò)上的標(biāo)簽之間的上下位關(guān)系(即傳統(tǒng)意義上的包含關(guān)系)的判定以及相應(yīng)的本體的構(gòu)建問題;從社交網(wǎng)絡(luò)上抓取標(biāo)簽作為原始的數(shù)據(jù)集。本發(fā)明首先設(shè)計(jì)了6個(gè)特征值用于刻畫任意兩個(gè)標(biāo)簽之間的相似性,接著從原始數(shù)據(jù)集中挑選了部分標(biāo)簽對(duì),結(jié)合它們的相似性特征值構(gòu)成訓(xùn)練數(shù)據(jù)集,并人工對(duì)訓(xùn)練數(shù)據(jù)集中的標(biāo)簽對(duì)是否具有上下位關(guān)系進(jìn)行標(biāo)注;然后利用RandomForest的機(jī)器學(xué)習(xí)模型訓(xùn)練我們的訓(xùn)練數(shù)據(jù)集得到分類器模型;之后利用分類器模型對(duì)原始數(shù)據(jù)中任意兩個(gè)標(biāo)簽之間的上下位關(guān)系進(jìn)行判定并標(biāo)注;抽取出所有具有上下位關(guān)系的標(biāo)簽對(duì),構(gòu)建出最終的社交網(wǎng)絡(luò)本體。
技術(shù)領(lǐng)域
本發(fā)明屬于本體構(gòu)建領(lǐng)域,涉及一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)本體構(gòu)建方法。
背景技術(shù)
近年來,社交網(wǎng)絡(luò)飛速發(fā)展,越來越多的人開始使用社交網(wǎng)絡(luò)。隨著社交網(wǎng)絡(luò)的普及,社交網(wǎng)絡(luò)之中的數(shù)據(jù)量也越來越大。很多社交站點(diǎn)允許用戶通過自定義標(biāo)簽的方式對(duì)一些內(nèi)容進(jìn)行標(biāo)注和分類,即我們所說的分眾分類法。這些通過用戶自定義的方式產(chǎn)生的分類標(biāo)簽缺乏規(guī)范性,可能會(huì)有語義模糊、用詞不準(zhǔn)確、一詞多義以及同詞異意等問題。這就給基于分眾分類法的社交本體的構(gòu)建帶來了極大的挑戰(zhàn)。
社交網(wǎng)絡(luò)上存在大量的平面的、雜亂的、無組織的數(shù)據(jù),這些數(shù)據(jù)得不到充分的利用。而構(gòu)建本體就是對(duì)這些數(shù)據(jù)進(jìn)行建模的一個(gè)很好的方式。將這些平面的數(shù)據(jù)通過本體組織起來,能讓我們更好的去利用這些數(shù)據(jù),同時(shí)也可以利用本體的結(jié)構(gòu)去挖掘更多社交網(wǎng)絡(luò)上不斷涌現(xiàn)的新知識(shí)。
不同的本體構(gòu)建方法,其構(gòu)建效果也千差萬別。近年來,國內(nèi)外研究人員為了解決分眾分類的本體構(gòu)建問題,提出了許多不同的本體構(gòu)建方法,包括周鑫等人提出的基于概念外延的Folksonomy語義關(guān)系挖掘方法、Xiance Si等人提出的基于標(biāo)簽共現(xiàn)的本體構(gòu)建方法、Huairen Lin等人提出的一種基于關(guān)聯(lián)規(guī)則挖掘和本體概念匹配的社交本體的構(gòu)建方法以及Wen-hao Chen等人提出的一種基于基礎(chǔ)概念的分眾分類本體構(gòu)建方法等。但這些方法都是僅僅基于標(biāo)簽共現(xiàn)和關(guān)聯(lián)規(guī)則挖掘來實(shí)現(xiàn)本體的構(gòu)建,無法深入挖掘本體中標(biāo)簽之間的語義關(guān)系,因此構(gòu)建效果并不盡如人意,達(dá)不到實(shí)用要求。
本文中所提出的基于機(jī)器學(xué)習(xí)的社交本體的構(gòu)建方法,通過設(shè)計(jì)包括標(biāo)簽共現(xiàn)在內(nèi)的六個(gè)相似性特征值去刻畫兩個(gè)標(biāo)簽之間的相似程度,從語言學(xué)、語義以及標(biāo)簽共現(xiàn)三個(gè)角度,全方位描述兩個(gè)標(biāo)簽的語義關(guān)系,讓計(jì)算機(jī)能夠深入理解這兩個(gè)標(biāo)簽的語義關(guān)系,而不僅僅停留于字面的意思,很好地提升了最終的社交的本體構(gòu)建的效果。
發(fā)明內(nèi)容
技術(shù)問題:本發(fā)明提供一種對(duì)于給定的兩個(gè)標(biāo)簽,能夠自動(dòng)判斷這兩個(gè)標(biāo)簽是否具有上下位關(guān)系的基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)本體構(gòu)建方法。同時(shí),本發(fā)明從社交網(wǎng)絡(luò)上抓取標(biāo)簽,對(duì)這些標(biāo)簽自動(dòng)進(jìn)行上下位關(guān)系的標(biāo)注之后,抽取出所有具有上下位關(guān)系的標(biāo)簽對(duì),并利用這些標(biāo)簽,構(gòu)建出最終的社交本體。
技術(shù)方案:本發(fā)明的基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)本體構(gòu)建方法,首先從社交網(wǎng)絡(luò)上抓取標(biāo)簽作為原始數(shù)據(jù)集;然后從原始數(shù)據(jù)集中隨機(jī)生成m對(duì)標(biāo)簽并人工從原始數(shù)據(jù)抽取出n對(duì)具有上下位關(guān)系的標(biāo)簽作為訓(xùn)練數(shù)據(jù)集,m和n的比例在3∶1到5∶1之間;接著人工對(duì)訓(xùn)練數(shù)據(jù)集中的每對(duì)標(biāo)簽是否具有上下位關(guān)系進(jìn)行標(biāo)注;然后設(shè)計(jì)了6個(gè)用于刻畫兩個(gè)標(biāo)簽之間的相似性的特征,并計(jì)算訓(xùn)練數(shù)據(jù)集中每對(duì)標(biāo)簽的這六個(gè)特征值,一并加入到訓(xùn)練數(shù)據(jù)集之中;使用機(jī)器學(xué)習(xí)中的RandomForest分類模型和十層交叉驗(yàn)證的方式對(duì)我們的訓(xùn)練數(shù)據(jù)集進(jìn)行分類和驗(yàn)證之后,導(dǎo)出該訓(xùn)練數(shù)據(jù)集對(duì)應(yīng)的分類器模型;利用導(dǎo)出的分類器模型對(duì)原始數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注;最后抽取出所有被標(biāo)注為具有上下位關(guān)系的標(biāo)簽對(duì),構(gòu)建最終的社交本體。
本發(fā)明的基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)本體構(gòu)建方法,包括如下步驟:
1)從社交網(wǎng)絡(luò)抓取標(biāo)簽構(gòu)成原始數(shù)據(jù)集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610115254.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對(duì)象搜索方法及裝置
- 針對(duì)嵌入式應(yīng)用上下文中的搜索的查詢意圖表達(dá)
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





