[發明專利]使用隨機文檔嵌入的文本數據表示學習有效
| 申請號: | 201880056129.0 | 申請日: | 2018-08-24 |
| 公開(公告)號: | CN111066021B | 公開(公告)日: | 2023-09-19 |
| 發明(設計)人: | 吳凌飛;M·J·維特布魯克 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06N20/00 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 吳信剛 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 隨機 文檔 嵌入 文本 數據 表示 學習 | ||
本發明的實施例提供了一種用于執行文本數據的無監督特征表示學習的計算機實現的方法。該方法生成具有隨機文本序列集合的參考文本數據,其中所述隨機文本序列集合的每個文本序列具有隨機長度且包括多個隨機詞,并且其中每個隨機長度是從最小長度到最大長度采樣的。從一分布中抽取該集合中的每個文本序列的隨機詞。該方法至少部分地基于所述隨機文本序列集合與原始文本數據之間的一組計算距離來生成原始文本數據的特征矩陣。該方法提供特征矩陣作為一個或多個機器學習模型的輸入。
技術領域
本發明一般地涉及機器學習系統,并且更具體地,涉及通過使用文本數據的隨機文檔嵌入來執行機器學習過程。
背景技術
短語機器學習廣泛地描述從數據學習的電子系統的功能。機器學習系統、引擎或模塊可包括可訓練的機器學習算法,其可諸如在外部云環境中被訓練以學習輸入與輸出之間的函數關系,其中函數關系當前未知。
短語文本數據廣義地描述了包括一個或多個文本序列的電子系統的數據結構,其中每個文本序列持有一個或多個詞的分組。文本序列的示例包括句子、段落、文檔等。文本數據的示例包括多個句子、多個段落、多個文檔等。短語文本序列和術語文檔在本文中經常不可傳授地使用。
學習有效的文本表示是許多機器學習和基于自然語言的處理(NLP)任務的關鍵基礎,所述任務諸如文檔分類和聚類、文檔檢索、機器翻譯和多語言文檔匹配。由于文本中沒有明確的特征,一些人試圖使用簡單的方法,諸如通過使用詞袋(BOW)技術來開發文本的有效表示。然而,BOW方法不考慮文本的詞序和詞的語義。此外,盡管已知一些詞向量技術在語義上產生詞表示,但是不太清楚句子或文檔表示是否應當被構建在詞表示之上或從頭開始。一種已知的技術是使用被稱為詞移距離(WMD)的文檔之間的距離度量來對準語義上相似的詞。然而,WMD計算起來非常昂貴,并且難以用于超出簡單的K最近鄰(KNN)機器學習方法的特征嵌入。
因此,在本領域中需要解決上述問題。
發明內容
從第一方面來看,本發明提供了一種計算機實現的方法,用于執行針對文本數據的無監督特征表示學習,所述方法包括:由處理器系統產生包括隨機文本序列集合的參考文本數據,其中所述隨機文本序列集合中的每一文本序列具有隨機長度且包括多個隨機詞,其中每一隨機長度是從最小長度到最大長度取樣的,且其中所述集合中的每一文本序列的所述隨機詞是從分布抽取的;由所述處理器系統至少部分地基于所述隨機文本序列集合與原始文本數據之間的計算距離的集合來生成用于所述原始文本數據的特征矩陣;以及由處理器系統提供特征矩陣作為一個或多個機器學習模型的輸入。
從另一方面來看,本發明提供了一種用于對文本數據執行無監督特征表示學習的系統,該系統包括一個或多個處理器,其被配置為執行一種方法,該方法包括:由所述系統產生包括隨機文本序列集合的參考文本數據,其中所述隨機文本序列集合中的每一文本序列具有隨機長度且包括多個隨機詞,其中每一隨機長度是從最小長度到最大長度取樣的,且其中所述集合中的每一文本序列的所述隨機詞是從分布抽取的;由所述系統至少部分地基于所述隨機文本序列集合與原始文本數據之間的計算距離的集合來生成所述原始文本數據的特征矩陣;以及由所述系統提供特征矩陣作為一個或多個機器學習模型的輸入。
從另一方面來看,本發明提供了一種用于對文本數據執行無監督特征表示學習的系統,該系統包括:處理器;存儲器;參考文本數據產生組件,其被配置為接收原始文本數據的概率分布,并產生包括隨機文本序列集合的參考文本數據,其中所述隨機文本序列集合中的每一文本序列具有隨機長度且包括多個隨機詞,其中每一隨機長度是從最小長度到最大長度取樣的,且其中所述集合中的每一文本序列的所述隨機詞是從所述概率分布抽取的;以及機器學習組件,被配置為:接收所述原始文本數據的特征矩陣,其中所述特征矩陣是至少部分地基于所述隨機文本序列集合與所述原始文本數據之間的計算距離的集合而生成的;以及提供特征矩陣作為一個或多個機器學習模型的輸入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880056129.0/2.html,轉載請聲明來源鉆瓜專利網。





