[發明專利]使用隨機文檔嵌入的文本數據表示學習有效
| 申請號: | 201880056129.0 | 申請日: | 2018-08-24 |
| 公開(公告)號: | CN111066021B | 公開(公告)日: | 2023-09-19 |
| 發明(設計)人: | 吳凌飛;M·J·維特布魯克 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06N20/00 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 吳信剛 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 隨機 文檔 嵌入 文本 數據 表示 學習 | ||
1.一種用于執行文本數據的無監督特征表示學習的計算機實現的方法,包括:
由處理器系統產生包括隨機文本序列集合的參考文本數據,其中所述隨機文本序列集合中的每個文本序列具有隨機長度且包括多個隨機詞,其中每個隨機長度是從最小長度到最大長度采樣的,并且其中所述集合中的每個文本序列的所述隨機詞是從分布抽取的;
由所述處理器系統至少部分地基于所述隨機文本序列集合與原始文本數據之間的計算距離的集合來生成用于所述原始文本數據的特征矩陣;以及
由所述處理器系統提供所述特征矩陣作為一個或多個機器學習模型的輸入;
其中生成所述特征矩陣包括:
由所述處理器系統使用文檔距離測量技術來計算所述原始文本數據與所述隨機文本序列集合之間的特征向量的集合;以及
由所述處理器系統串接所述特征向量以生成所述特征矩陣。
2.根據權利要求1所述的計算機實現的方法,其中所述分布包括詞向量空間的隨機概率分布。
3.根據權利要求1所述的計算機實現的方法,其中所述分布包括從所述原始文本數據生成的詞向量空間的概率分布。
4.根據權利要求3所述的計算機實現的方法,其中所述詞向量空間包括預先訓練的word2vec嵌入空間。
5.根據權利要求3所述的計算機實現的方法,其中所述詞向量空間包括經訓練的word2vec嵌入空間。
6.根據權利要求3至5中的任一項所述的計算機實現的方法,其中所述處理器系統包括兩方協議系統,所述兩方協議系統包括第一方組件和第二方組件,其中所述第一方組件被配置為從所述原始文本數據生成所述概率分布,將所述原始文本數據的所述概率分布發送到所述第二方組件,從所述第二方組件接收所述參考文本數據,至少部分地基于所述隨機文本序列集合來生成所述特征矩陣,并且將所生成的特征矩陣發送到所述第二方組件。
7.根據權利要求6所述的計算機實現的方法,其中所述第二方組件被配置為從所述第一方組件接收所述概率分布,生成所述參考文本數據,將所述參考文本數據傳輸到所述第一方組件,從所述第一方組件接收所生成的特征矩陣,將所述特征矩陣作為輸入提供給所述一個或多個機器學習模型,以及將來自所述機器學習模型的結果傳輸到所述第一方組件。
8.一種用于執行文本數據的無監督特征表示學習的系統,所述系統包括被配置為執行一種方法的一個或多個處理器,所述方法包括:
由所述系統產生包括隨機文本序列集合的參考文本數據,其中所述隨機文本序列集合中的每個文本序列具有隨機長度且包括多個隨機詞,其中每個隨機長度是從最小長度到最大長度采樣的,并且其中所述集合中的每個文本序列的所述隨機詞是從分布抽取的;
由所述系統至少部分地基于所述隨機文本序列集合與原始文本數據之間的計算距離的集合來生成用于所述原始文本數據的特征矩陣;以及
由所述系統提供所述特征矩陣作為一個或多個機器學習模型的輸入;
其中生成所述特征矩陣包括:
由所述系統使用文檔距離測量技術來計算所述原始文本數據與所述隨機文本序列集合之間的特征向量的集合;以及
由所述系統串接所述特征向量以生成所述特征矩陣。
9.根據權利要求8所述的系統,其中所述分布包括詞向量空間的隨機概率分布。
10.根據權利要求8所述的系統,其中所述分布包括從所述原始文本數據生成的詞向量空間的概率分布。
11.根據權利要求10所述的系統,其中所述詞向量空間包括預先訓練的word2vec嵌入空間。
12.根據權利要求10所述的系統,其中所述詞向量空間包括經訓練的word2vec嵌入空間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880056129.0/1.html,轉載請聲明來源鉆瓜專利網。





