[發明專利]分類樹生成在審
| 申請號: | 201980040343.1 | 申請日: | 2019-06-14 |
| 公開(公告)號: | CN112352232A | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | A·古鐵雷斯·穆尼奧斯;S·亞帕拉吉特 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/95 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 劉田林 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 生成 | ||
1.一種生成針對域的分類樹的方法,所述方法包括:
從文檔索引收集所述域的文檔的層次結構;
針對所述層次結構中的每個層次結構的每個節點提取類別;
將所提取的所述類別作為多維類別向量嵌入到多維向量空間中;
將所述多維類別向量分組為多個組,第一組的所述多維類別向量比第二組的所述多維類別向量更滿足針對所述第一組的相似性條件,每組所述多維類別向量構成類別簇,每個類別簇包括針對來自所述層次結構的不同層次水平的所提取的類別的多維類別向量;以及
生成所述分類樹,其中每個類別簇被插入作為所述分類樹的類別節點。
2.根據權利要求1所述的方法,其中所述嵌入操作包括:
將所提取的所述類別和關聯的祖先-后代關系作為多維類別向量嵌入到所述多維向量空間中。
3.根據權利要求1所述的方法,其中所述分組操作包括:
將所述多維類別向量分組為多個組,所述第一組的所述多維類別向量比所述第二組的所述多維類別向量更滿足針對所述第一組的相似性條件,每組所述多維類別向量構成類別簇,每個類別簇包括針對來自所述層次結構的不同層次水平的所提取的類別和關聯的祖先-后代關系的多維類別向量。
4.根據權利要求1所述的方法,其中所述提取操作包括:
針對所述層次結構中的每個層次結構的每個節點提取祖先-后代關系;以及
將每個節點的所提取的所述祖先-后代關系分配給所述節點的所述類別所對應的所述類別簇,
并且所述生成操作包括:
基于每個類別簇的所分配的所述祖先-后代關系,從所述分類樹中的每個類別簇創建分支。
5.根據權利要求1所述的方法,其中所述生成操作包括:
基于從來自所述文檔索引的所述域的所述文檔的所述層次結構收集的分支統計,從所述分類樹的每個類別節點生成分支。
6.根據權利要求1所述的方法,其中所述分類樹包括來自共同節點的重復分支,并且所述生成操作包括:
將所述重復分支合并到來自所述分類樹中的所述共同節點的單個分支。
7.根據權利要求1所述的方法,其中所述生成操作包括:
從所述層次結構的類別標簽中為所述分類樹的每個節點選擇類別標簽。
8.根據權利要求1所述的方法,其中所述嵌入操作包括:
將所提取的所述類別作為多維類別向量嵌入到所述多維向量空間中,所述多維向量空間是從域特定文本的域特定嵌入生成的。
9.一種用于生成針對域的分類樹的計算系統,所述計算系統包括:
一個或多個處理器;
層次提取器,由所述一個或多個處理器執行并被配置以從文檔索引收集所述域的文檔的層次結構并且針對所述層次結構中的每個層次結構的每個節點提取類別;
類別嵌入器,由所述一個或多個處理器執行并被配置以將所提取的所述類別作為多維類別向量嵌入到多維向量空間中;
類別合并器,由所述一個或多個處理器執行并被配置以將所述多維類別向量分組為多個組,第一組的所述多維類別向量比第二組的所述多維類別向量更滿足針對所述第一組的相似性條件,每組所述多維類別向量構成類別簇,每個類別簇包括針對來自所述層次結構的不同層次水平的所提取的類別的多維類別向量;以及
分類體系生成器,由所述一個或多個處理器執行并被配置以生成所述分類樹,其中每個類別簇被插入作為所述分類樹的類別節點。
10.根據權利要求9所述的計算系統,其中所述類別嵌入器進一步被配置以將所提取的所述類別和關聯的祖先-后代關系作為多維類別向量嵌入到所述多維向量空間中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980040343.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:超緊湊型寬視場透鏡組件
- 下一篇:家長控制監視系統及方法





