[發明專利]一種基于選擇單元的主題建模方法有效
| 申請號: | 201310410816.7 | 申請日: | 2013-09-10 |
| 公開(公告)號: | CN103559193A | 公開(公告)日: | 2014-02-05 |
| 發明(設計)人: | 湯斯亮;張寅;王翰琪;魯偉明;吳飛;莊越挺 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 張法高 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 選擇 單元 主題 建模 方法 | ||
技術領域
本發明涉及多媒體檢索,尤其涉及一種基于選擇單元的主題建模方法。?
背景技術
目前,隨著互聯網架構、存儲科技及其他有關技術的發展,各種各樣模態的多媒體數據,如新聞,圖片,以及聲音和視頻等越來越多。飛速增長的多媒體數據除了給互聯網用戶更好的瀏覽體驗和為多媒體檢索應用提供了更多的樣本以外,也帶來了如何對大規模數據進行自動文檔聚類的挑戰。為了應對這一挑戰,許多多媒體檢索及整合應用在其核心算法中使用了非監督層次化貝葉斯模型(或稱主題模型),如LDA(隱狄利克雷分配,一種廣泛的傳統主題模型)及其擴展等。從2003年被提出直至今日,LDA及其衍生模型已經作為多種主題建模應用的核心算法,被用于解決文檔摘要、跨數據集建模和文檔主題演化追蹤等多種問題和挑戰,并且在實際使用中發揮了良好的效果。和傳統的基于統計的一些文本歸納方法相比,主題模型在可觀測的文檔層和單詞層間增加了一個隱含的主題層,并認為文檔是包含有一個或多個主題,而每個主題又是不同比例詞的組合。新增加的主題這一隱含層能使用戶更好地理解一篇文檔所涵蓋的內容(相當于為文檔加上了諸如“體育”、“社會”等一個或多個類別標簽,而不是提供詞的頻數統計),而且在應用處理海量數據時起到了降維的效果。主題模型最初被用于處理文本數據,新聞報道和科學論文等;由于圖像數據和文本數據具有某種程度上的同質性,因此在將圖像中的特征點處理為視覺單詞后,也可以使用主題建模方法對圖像數據進行歸納整合,主題模型及以其作為核心算法的各類應用也因此具有處理多種模態數據的能力。?
LDA等經典主題模型的一個核心假設是對文檔的BoW表達(詞袋表達)。這種表達方式假設每篇文檔中詞與詞之間沒有關聯,并且相互之間的位置可互換。BoW假設在數學上易于推導,為主題模型帶來了計算上的方便和處理數據時的快捷。然而,這樣的假設實際上是過于簡單的,因為文檔中的一些單詞(或圖片中的視覺單詞)受其外部的片段結構(如文本中的句子或段落,以及圖片中的區域等)限制,是不能與所屬片段結構之外的單詞相互交換的。作為對傳統主題建模方法的改進,一些應用轉而采用較新提出的模型,如LDCC及Spatial-LTM等,開始在對文本、圖像等離散型數據的歸納整合中將文檔與詞之間的片段結構(如前文所述的語句或圖像區域等)作為對詞分配主題時的結構限制而納入建模過程。然而,這些模型一般對(視覺)單詞施加過強的結構限制,認為其必須服從于所屬片段結構的主題,而不考慮該單詞表達其他主題或是噪聲的可能性。因此,根據(視覺)單詞本身的特征對其?選擇性地施加結構限制,從而使整體算法以及采用算法的應用能夠更加適應現實中的多媒體數據是主題建模領域研究的新方向。?
發明內容
本發明的目的是克服現有技術的不足,提供一種基于選擇單元的主題建模方法。?
基于選擇單元的主題建模方法包括如下步驟:?
1.根據用戶的查詢請求以及是要查詢文本數據或圖像數據提取多媒體數據庫中的搜索結果;?
2.如果查詢請求是針對文本數據的,提取搜索到的文本數據中的單詞、片段結構和單詞特征,如果查詢請求是針對圖像數據的,提取搜索到的圖像數據中的視覺單詞、片段結構和視覺單詞特征;?
3.根據系統自動設定或用戶指定的參數,確定建模采用的主題數T;?
4.對于數據集包含的每個片段結構,隨機地分配T個主題中的一個作為片段結構的主題;?
5.對于數據集包含的每個單詞,隨機地分配T個主題中的一個作為單詞主題;?
6.對于數據集包含的每個單詞,隨機地分配一個0-1二元選擇子,選擇子用于指定每個單詞被分配到其所屬的片段結構的主題或是其自身的主題上;?
7.通過Gibbs采樣過程迭代地確定所有片段結構主題、單詞主題以及選擇子;?
8.根據片段結構主題和單詞主題最終分配結果向用戶反饋各個主題最顯著的文檔或圖片以及最有代表性的單詞信息;?
9.根據選擇子最終分配結果向用戶反饋具有各種特征的單詞表達它們所在片段結構的主題的能力。?
所述的提取文本數據中單詞、片段結構和單詞特征的步驟如下:?
1.采用自然語言處理工具對文檔進行分句,以得到的語句作為文本數據的片段結構;?
2.采用自然語言處理工具標注每個詞的詞性,以得到的詞性標注結構作為各單詞的特征;?
3.去除其中無用的高頻詞以及頻數過低的生僻詞;?
4.統計處理后文本中所有出現過的詞,組成詞匯表。?
所述的提取圖片數據中視覺單詞、片段結構和視覺單詞特征的步驟如下:?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310410816.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:負壓式吸收式溴化鋰潔凈干燥系統
- 下一篇:保健混紡織物的生產方法





