[發(fā)明專利]一種基于選擇單元的主題建模方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310410816.7 | 申請(qǐng)日: | 2013-09-10 |
| 公開(公告)號(hào): | CN103559193A | 公開(公告)日: | 2014-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 湯斯亮;張寅;王翰琪;魯偉明;吳飛;莊越挺 | 申請(qǐng)(專利權(quán))人: | 浙江大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 張法高 |
| 地址: | 310027 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 選擇 單元 主題 建模 方法 | ||
1.一種基于選擇單元的主題建模方法,其特征在于包括如下步驟:?
1)根據(jù)用戶的查詢請(qǐng)求以及是要查詢文本數(shù)據(jù)或圖像數(shù)據(jù)提取多媒體數(shù)據(jù)庫(kù)中的搜索結(jié)果;?
2)如果查詢請(qǐng)求是針對(duì)文本數(shù)據(jù)的,提取搜索到的文本數(shù)據(jù)中的單詞、片段結(jié)構(gòu)和單詞特征,如果查詢請(qǐng)求是針對(duì)圖像數(shù)據(jù)的,提取搜索到的圖像數(shù)據(jù)中的視覺(jué)單詞、片段結(jié)構(gòu)和視覺(jué)單詞特征;?
3)根據(jù)系統(tǒng)自動(dòng)設(shè)定或用戶指定的參數(shù),確定建模采用的主題數(shù)T;?
4)對(duì)于數(shù)據(jù)集包含的每個(gè)片段結(jié)構(gòu),隨機(jī)地分配T個(gè)主題中的一個(gè)作為片段結(jié)構(gòu)的主題;?
5)對(duì)于數(shù)據(jù)集包含的每個(gè)單詞,隨機(jī)地分配T個(gè)主題中的一個(gè)作為單詞主題;?
6)對(duì)于數(shù)據(jù)集包含的每個(gè)單詞,隨機(jī)地分配一個(gè)0-1二元選擇子,選擇子用于指定每個(gè)單詞被分配到其所屬的片段結(jié)構(gòu)的主題或是其自身的主題上;?
7)通過(guò)Gibbs采樣過(guò)程迭代地確定所有片段結(jié)構(gòu)主題、單詞主題以及選擇子;?
8)根據(jù)片段結(jié)構(gòu)主題和單詞主題最終分配結(jié)果向用戶反饋各個(gè)主題最顯著的文檔或圖片以及最有代表性的單詞信息;?
9)根據(jù)選擇子最終分配結(jié)果向用戶反饋具有各種特征的單詞表達(dá)它們所在片段結(jié)構(gòu)的主題的能力。?
2.根據(jù)權(quán)利要求1所述的一種基于選擇單元的主題建模方法,其特征在于所述的提取搜索到的文本數(shù)據(jù)中的單詞、片段結(jié)構(gòu)和單詞特征的步驟如下:?
1)采用自然語(yǔ)言處理工具對(duì)文檔進(jìn)行分句,以得到的語(yǔ)句作為文本數(shù)據(jù)的片段結(jié)構(gòu);?
2)采用自然語(yǔ)言處理工具標(biāo)注每個(gè)詞的詞性,以得到的詞性標(biāo)注結(jié)構(gòu)作為各單詞的特征;?
3)去除其中無(wú)用的高頻詞以及頻數(shù)過(guò)低的生僻詞;?
4)統(tǒng)計(jì)處理后文本中所有出現(xiàn)過(guò)的詞,組成詞匯表。?
3.根據(jù)權(quán)利要求1所述的一種基于選擇單元的主題建模方法,其特征在于所述的提取搜索到的圖像數(shù)據(jù)中的視覺(jué)單詞、片段結(jié)構(gòu)和視覺(jué)單詞特征的步驟如下:?
1)使用OpenSIFT提取所有圖片的SIFT特征,構(gòu)成一個(gè)128維特征點(diǎn)的集合;?
2)將特征點(diǎn)集合用K-means聚類得到一組視覺(jué)詞典,并將所有SIFT點(diǎn)按聚類結(jié)果替換為詞典中的視覺(jué)單詞;?
3)采用圖像分割和人工標(biāo)注手段提取圖片中的物體邊界、顏色直方圖等屬性,并以物體邊界作為圖像中的片段結(jié)構(gòu);?
4)對(duì)物體進(jìn)行聚類得到各視覺(jué)單詞所屬的類別標(biāo)簽,并以該類別標(biāo)簽作為視覺(jué)單詞的特征。?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310410816.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





