[發(fā)明專利]分類樹生成在審
| 申請?zhí)枺?/td> | 201980040343.1 | 申請日: | 2019-06-14 |
| 公開(公告)號: | CN112352232A | 公開(公告)日: | 2021-02-09 |
| 發(fā)明(設計)人: | A·古鐵雷斯·穆尼奧斯;S·亞帕拉吉特 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/95 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 劉田林 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 生成 | ||
計算系統(tǒng)以無監(jiān)督的方式(例如,無人為干預)生成用于域的分類樹。從文檔索引收集域的文檔的層次結構。為每個層次結構的每個節(jié)點提取類別。將提取的類別作為多維類別向量嵌入到多維向量空間中。將多維類別向量分組為多個組,第一組的多維類別向量比第二組的多維類別向量更滿足針對第一組的相似性條件。多維類別向量的每個組構成一個類別簇。每個類別簇包括針對來自層次結構的不同層次水平的所提取類別的多維類別向量。生成分類樹,其中每個類別簇作為分類樹的類別節(jié)點而被插入。
背景技術
計算系統(tǒng)已經(jīng)被成功編程以理解人類語言的語法。然而,向計算機系統(tǒng)提供對人類語言隱含含義的理解和欣賞是另一不同且更具挑戰(zhàn)性的目標。例如,計算機系統(tǒng)可以在數(shù)據(jù)集合中檢測到術語“塔科馬”,但可能無法區(qū)分華盛頓州的城市“塔科馬”和皮卡車型號“塔科馬”。在人為監(jiān)督的技術中,人為領域?qū)<铱梢蕴峁╇[含含義,但是無監(jiān)督計算系統(tǒng)無法訪問此類人為提供的含義。這樣,無監(jiān)督計算系統(tǒng)在對人類語言的理解上往往不如受監(jiān)督計算系統(tǒng)準確,但是人為監(jiān)督比無監(jiān)督技術昂貴且可擴展性較差。然而,計算系統(tǒng)無法以近乎人類的準確性識別人類語言中的含義可能降低數(shù)據(jù)搜索、網(wǎng)絡搜索、產(chǎn)品推薦、拼寫檢查、語音到文本和文本到語音轉換、人類-計算機言語交互、數(shù)據(jù)分類和其他計算服務的價值。
發(fā)明內(nèi)容
所描述的技術提供了以無監(jiān)督方式(例如,無人為干預)生成針對域的分類樹。從文檔索引收集所述域的文檔的層次結構。針對所述層次結構中的每個層次結構的每個節(jié)點提取類別。將所提取的所述類別作為多維類別向量嵌入到多維向量空間中。將所述多維類別向量分組為多個組,第一組的所述多維類別向量比第二組的所述多維類別向量更滿足針對所述第一組的相似性條件。每組所述多維類別向量構成類別簇。每個類別簇包括針對來自所述層次結構的不同層次水平的所提取的類別的多維類別向量。生成所述分類樹,其中每個類別簇被插入作為所述分類樹的類別節(jié)點。
提供本發(fā)明內(nèi)容以簡化形式介紹一系列概念,這些概念將在下面的具體實施方式中進一步描述。本發(fā)明內(nèi)容既不旨在標識所要求保護的主題的關鍵特征或必要特征,也不旨在用于限制所要求保護的主題的范圍。
本文還描述和講述了其他實施方式。
附圖說明
圖1示出了示例性主題提取計算系統(tǒng)。
圖2示出了用于從非結構化文本中提取針對域的類別的示例性類別提取器。
圖3示出了用于從結構化web文檔中提取針對域的分類樹的示例性分類樹提取器。
圖4示出了示例性類別合并以增強從分層web文檔結構中提取針對域的統(tǒng)一分類樹的準確性。
圖5示出了用于生成針對域的分類樹的示例性操作。
圖6示出了可以用于實施所描述的技術以生成針對域的分類樹的示例性計算設備。
具體實施方式
計算系統(tǒng)可以通過構造分類樹(結構化類別集合)以自動化方式或半自動化方式為域(例如,行業(yè)、研究領域)確定短語(例如,主題)的準確含義,那些短語可被準確分類到所述分類樹中。域數(shù)據(jù)可以按本質(zhì)而被結構化,例如以web文檔的層次結構的形式(e.g.,“products.office.com/en-us/business/small-business-solutions”),或者可以是非結構化的,例如從web搜索中捕獲的文本術語集合的形式(例如,查詢、網(wǎng)頁標題、web網(wǎng)頁的文本環(huán)境或來自選定搜索結果的文本),分類樹和主題從所述域數(shù)據(jù)來構建。在所描述的技術中,結構化域和非結構化域兩者可以組合使用,以獲取和細化即使對于例如萬維網(wǎng)這樣的大型高度異構文檔集合而言也很準確的域特定主題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經(jīng)微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980040343.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





