[發明專利]用于不同標記集合的轉移學習技術的系統和方法有效
| 申請號: | 201680039897.6 | 申請日: | 2016-07-05 |
| 公開(公告)號: | CN107735804B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 金永邦;R·薩里卡亞 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G10L15/18 | 分類號: | G10L15/18;G06K9/62;G06N20/00 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 酆迅;杜波 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 不同 標記 集合 轉移 學習 技術 系統 方法 | ||
1.一種用于映射不同標記集合的系統,包括:
至少一個處理器;以及
耦合到所述至少一個處理器的存儲器,所述存儲器包括計算機可執行指令,所述計算機可執行指令在由所述至少一個處理器執行時執行一種方法,所述方法包括:
訪問與至少第一領域相關聯的第一已標記數據集合,其中所述第一已標記數據集合包括一個或多個標記和對應的數據值;
將所述第一已標記數據集合轉換成向量集合,其中所述向量集合至少包括第一向量和第二向量,所述第一向量包括第一標記,所述第二向量包括第二標記;
使用一項或多項聚類技術來識別所述第一標記與所述第二標記之間的共同性,其中所述共同性指示所述第一標記和所述第二標記屬于共享的簇類別;
至少基于所識別的所述第一標記與所述第二標記之間的所述共同性,生成包括第三標記的粗糙標記集合,所述第三標記表示所述共享的簇類別,其中所述第三標記表示所述第一標記和所述第二標記的抽象;
使用所述粗糙標記集合來訓練針對第二領域的模型以執行與自然語言理解相關聯的轉移學習技術,其中所述轉移學習技術包括:使所述第一領域中的數據適應所述第二領域,以及使用來自所述第一領域和所述第二領域的數據的聯合來訓練所述模型,其中所述第二領域與所述第一領域不同;以及
使用所訓練的所述模型,將與所述粗糙標記集合相關聯的第一粗糙標記映射到與所述第二領域相關聯的精細標記。
2.根據權利要求1所述的系統,還包括:接收來自接收到的輸入的已標記數據,其中所述已標記數據包括與所述接收到的輸入相關聯的查詢數據。
3.根據權利要求2所述的系統,還包括:使用所述模型向用戶提供查詢的結果集合。
4.根據權利要求1所述的系統,其中轉換所述第一已標記數據集合包括:對所述第一已標記數據集合應用標準相關分析CCA。
5.根據權利要求1所述的系統,其中生成所述粗糙標記集合包括:使用從以下組中選擇的至少一種技術來至少聚合所述第一向量和所述第二向量:所述組包括k均值聚類、譜聚類、相似性傳播、均值漂移、Ward層級聚類、凝聚聚類、DBSCAN、Gaussian混合和Birch聚類。
6.根據權利要求1所述的系統,其中所述粗糙標記集合從至少兩個向量生成。
7.根據權利要求1所述的系統,其中訓練所述模型包括:識別與所述粗糙標記集合在語義上相關的一個或多個標記。
8.根據權利要求6所述的系統,還包括:使用識別的所述一個或多個標記來預測用于目標領域的標記。
9.根據權利要求1所述的系統,其中所述第二標記共享至少所述第一向量和所述第二向量的所述共同性。
10.根據權利要求1所述的系統,其中所述第一領域與模式相關聯,所述模式在所述已標記數據集合內指定意圖、插槽或元數據中的至少一項。
11.根據權利要求1所述的系統,其中所訓練的所述模型被用來對所述第二領域內的標記做出預測,其中所述預測包括以下至少一項:在標記映射期間導出的標記相關性、關于同義標記名稱的數據、歷史映射數據或插槽分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201680039897.6/1.html,轉載請聲明來源鉆瓜專利網。





