[發明專利]一種基于主題模型的跨語言層次分類體系匹配方法有效
| 申請號: | 201710441927.2 | 申請日: | 2017-06-13 |
| 公開(公告)號: | CN107391565B | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 漆桂林;崔軒;吳天星 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/335;G06F16/36;G06F16/903 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 唐紅 |
| 地址: | 210000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主題 模型 語言 層次 分類 體系 匹配 方法 | ||
本發明公開一種基于主題模型的跨語言層次分類體系匹配方法,首先根據給定的兩個不同語言層次分類體系產生相對應的背景文本,并對每個分類候選值進行預篩選;然后使用先前產生的背景文本作為語料庫,使用一種基于主題模型的訓練方法對每個分類生成其在語料庫中對應的高維主題分布,接下來采用典型關聯分析算法對兩種不同語言的語料庫對應的高維主題分布進行空間向量映射,最后對映射后每個分類的每個預篩選候選值進行計算其余弦相似度,并判斷該候選值是否可以作為該分類的一個最相關分類。本發明能夠為一種語言的層次分類體系中的每個分類識別其在另一種語言的層次分類體系中最相關的分類。
技術領域
本發明涉及跨語言信息匹配領域,具體涉及一種基于主題模型的跨語言層次分類體系匹配方法。
背景技術
近年來,隨著語義Web和信息技術的飛速發展,網絡上的數據量呈指數級增長,這些數據也已經廣泛應用到了信息社會的各行各業,包括生物、醫療、交通、金融、旅游等。為了能夠對網絡資源進行更加充分地分類利用,提高對網絡資源的管理,方便用戶快速識別與檢索到所需的資源,大量隨之而生的層次分類體系也先后出現。層次分類體系是指根據一定規則和標準對某一領域數據經過層次化分類構建出來的具有相互關聯關系的層次化結構。但是由于構建者行為習慣、語言地域乃至于文化上的差異,造成很多層次分類體系雖然構建的是同樣的領域,但是卻不能相互之間進行知識的共享與融合。
跨語言層次分類體系匹配的目的是為一種語言的層次分類體系中的每個分類識別其在另一種語言的層次分類體系中最相關分類,目前針對此已經有一些相關工作,更有一些已經形成了相對應的工具系統,取得了一定的進展。CC-BiBTM提出采用主題模型的方法來解決這些問題,首先將分類的標簽放入Google搜索引擎中進行處理,以此得到分類的背景文本,然后對得到的背景文本進行翻譯,分別得到中英文的對照文檔。
然而由于其只是在背景文本抽取的過程中應用到了分類結點與其父類結點之間的關系來消除歧義,其余過程均未利用到層次分類體系的結構,而分類結構對跨語言層次分類體系的匹配具有重要作用,而且其采用了Google翻譯來獲取得到中英文對照文檔,翻譯得到的文檔會引入較大噪聲數據,因此會影響到匹配的結果。
發明內容
發明目的:本發明的目的在于解決現有技術中存在的不足,提供一種基于主題模型的跨語言層次分類體系匹配方法,能夠為一種語言的層次分類體系中的每個分類識別其在另一種語言的層次分類體系中最相關分類。
技術方案:本發明所述的一種基于主題模型的跨語言層次分類體系匹配方法,依次包括以下步驟:
(1)據給定的兩個層次分類體系Ts={Vs,Es}和Tt={Vt,Et},其中s和t分別表示兩種不同的語言,V表示層次分類體系中的分類結點,E表示分類結點之間的包含關系,使用谷歌搜索引擎獲取背景文本;同時對于給定的一個語言的層次分類體系在另一個語言的層次分類體系中篩選出待匹配的候選值:
(2)使用所述步驟(1)中產生的背景文本作為語料庫使用基于主題模型的訓練方法對每個分類生成其在語料庫中對應的高維主題分布,然后采用典型關聯分析算法對兩個向量空間的高維主題分布進行空間映射,統一映射到一個向量空間中;
(3)采用余弦相似度的方法為步驟(1)中篩選出的候選值為每一個分類和其對應的每個候選值計算其之間的相似度,最終可判定為最相關的分類之間可以作為一個分類對結果。
進一步的,所述步驟(1)中獲取背景文本的步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710441927.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據轉換方法、裝置以及電子設備
- 下一篇:展示多媒體數據的方法及裝置





