[發明專利]一種基于主題模型的跨語言層次分類體系匹配方法有效
| 申請號: | 201710441927.2 | 申請日: | 2017-06-13 |
| 公開(公告)號: | CN107391565B | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 漆桂林;崔軒;吳天星 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/335;G06F16/36;G06F16/903 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 唐紅 |
| 地址: | 210000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主題 模型 語言 層次 分類 體系 匹配 方法 | ||
1.一種基于主題模型的跨語言層次分類體系匹配方法,其特征在于:依次包括以下步驟:
(1)根據給定的兩個層次分類體系Ts={Vs,Es}和Tt={Vt,Et},其中s和t分別表示兩種不同的語言,V表示層次分類體系中的分類結點,E表示分類結點之間的包含關系,使用谷歌搜索引擎獲取背景文本;同時對于給定的一個語言的層次分類體系在另一個語言的層次分類體系中篩選出待匹配的候選值:
(2)使用所述步驟(1)中產生的背景文本作為語料庫使用基于主題模型的訓練方法對每個分類生成其在語料庫中對應的高維主題分布,然后采用典型關聯分析算法對兩個向量空間的高維主題分布進行空間映射,統一映射到一個向量空間中;
(3)采用余弦相似度的方法為步驟(1)中篩選出的候選值為每一個分類和其對應的每個候選值計算其之間的相似度,最終可判定為最相關的分類之間可以作為一個分類對結果;
其中,所述步驟(2)中高維主題分布的生成方法具體為:
給定某一種語言的語料庫其中包含有C個分類,W個詞匯,|D|篇文檔,di表示第i篇文檔,語料庫對應的雙詞文檔令zi∈[1,K]表示雙詞bi的主題,C×K維矩陣表示語料庫中C個分類的主題分布,其中θi,j=P(x=i,z=j)表示分類i下主題j的概率,K×W維矩陣表示語料庫中K個主題的詞分布,其中表示主題k下單詞w出現的概率,|B|×C維矩陣π表示雙詞關于分類的關系分布,其中πb,c=P(b,c)表示雙詞b下分類c出現的概率,xi表示雙詞bi所屬的分類,那么主題模型的生成過程如下:
對每一個分類c∈[1,C]采樣其主題分布:θc~Dir(α);
對每一個主題k∈[1,K]采樣其詞分布:
給定雙詞關于分類的關系分布π,對語料庫中每一個雙詞bi∈B,都有:
采樣雙詞bi的分類xi~Multi(πi);
采樣雙詞bi的主題
分別采樣bi中的兩個單詞
為了得到未知變量θ和的值,對模型采用吉布斯采樣的方法進行近似推導,給定語料庫和去除雙詞bi之后其余雙詞的主題與分類,雙詞bi的分類為c,主題為k的概率為:
其中表示去除雙詞bi以外單詞wi,1主題為k的次數,并且有表示去除雙詞bi以外單詞wi,2主題為k的次數,并且表示去除雙詞bi以外主題為k、分類為c的雙詞的個數,并且表示雙詞bi對分類c的關系分布,通過吉布斯采樣可以得到隱變量的值為:
其中nc,k表示主題為k分類為c的單詞的個數,并且nc=∑cnc,k,nw|k表示主題為k的單詞w的個數,并且n·|k=∑wnw|k。
2.根據權利要求1所述的基于主題模型的跨語言層次分類體系匹配方法,其特征在于:所述步驟(1)中獲取背景文本的步驟如下:
對于一個給定的分類,為了獲取代表分類語義信息的背景文本,將分類本身標簽與其父類標簽一起放入Google搜索引擎中,搜索引擎會返回一個以摘要構成的網頁列表,取前10個摘要組成的文檔作為該分類的背景文本,并得到網頁中的摘要列表,將摘要列表聚合即為該分類結點英文原始背景文本,然后將此文本翻譯得到中文的對照文本,對于上述得到的文本首先進行分詞和去停用詞操作,然后對英文文本進行單詞的詞根化處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710441927.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據轉換方法、裝置以及電子設備
- 下一篇:展示多媒體數據的方法及裝置





