[發明專利]基于標簽樹的模型訓練、文本標簽確定方法及裝置在審
| 申請號: | 202010884803.3 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112015898A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 潘寅旭;崔恒斌;謝楊易 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 標簽 模型 訓練 文本 確定 方法 裝置 | ||
1.一種基于標簽樹的文本分類模型訓練方法,通過計算機執行,包括:
獲取訓練集,其中包括多個文本和對應標注的實標簽,文本包括若干個分詞,所述訓練集中多個種類的實標簽構成標簽集;
對所述標簽集中的實標簽進行分層聚類,基于聚類結果生成第一標簽樹,其中的葉節點對應于實標簽,干節點被對應于定義的虛標簽;
獲取基于所述訓練集和虛標簽構建的異構關系網絡,其中至少包括:用于表示文本的文本節點,用于表示標簽的標簽節點,用于表示分詞的分詞節點,且具備關聯關系的不同類型節點之間建立有連接邊,所述標簽包括實標簽和虛標簽;
從所述異構關系網絡中查找符合預設格式的多組元路徑,所述預設格式包括:元路徑中包括的標簽節點與標簽節點之間通過不同類型的節點連接;
將多組元路徑輸入預先訓練的圖嵌入模型,通過所述圖嵌入模型確定多個實標簽和多個虛標簽分別對應的更新特征;
將所述更新特征對應地確定為所述第一標簽樹中若干個節點的特征,得到第二標簽樹;基于所述訓練集對所述第二標簽樹對應的文本分類模型進行訓練。
2.根據權利要求1所述的方法,所述對所述標簽集中的實標簽進行分層聚類,基于聚類結果生成第一標簽樹的步驟,包括:
針對所述標簽集中的任意一個實標簽,基于所述訓練集中該實標簽對應的多個文本,確定該實標簽的初始特征;
基于多個實標簽的初始特征,對多個實標簽進行分層聚類,并基于聚類結果生成第一標簽樹。
3.根據權利要求1所述的方法,構建異構關系網絡包括:
針對任意一個第一虛標簽,根據所述第一標簽樹確定所述第一虛標簽對應的第一實標簽,基于所述第一虛標簽和所述第一實標簽的對應關系建立連接邊。
4.根據權利要求3所述的方法,所述基于所述第一虛標簽和所述第一實標簽的對應關系建立連接邊的步驟,包括:
將所述第一虛標簽對應的標簽節點與所述第一實標簽對應的標簽節點建立連接邊。
5.根據權利要求3所述的方法,所述基于所述第一虛標簽和所述第一實標簽的對應關系建立連接邊的步驟,包括:
將所述第一虛標簽對應的標簽節點與第一文本節點建立連接邊,所述第一文本節點是所述第一實標簽對應的標簽節點連接的文本節點。
6.根據權利要求1所述的方法,所述預設格式具體包括:元路徑中的節點按照標簽節點、文本節點、分詞節點、文本節點、標簽節點的順序循環排列。
7.根據權利要求1所述的方法,所述對所述標簽集中的實標簽進行分層聚類,基于聚類結果生成第一標簽樹的步驟,包括:
基于預設的標簽樹結構參數,對所述標簽集中的實標簽進行分層聚類,基于聚類結果生成第一標簽樹;所述標簽樹結構參數包括干節點層數和干節點連接的下一層節點的最大數目。
8.根據權利要求1所述的方法,所述通過所述圖嵌入模型確定多個實標簽和多個虛標簽分別對應的更新特征的步驟,包括:
通過所述圖嵌入模型,最大化構建的條件概率,迭代地確定多個實標簽和多個虛標簽分別對應的更新特征;所述條件概率至少基于多組元路徑構建。
9.根據權利要求1所述的方法,所述第二標簽樹中每一層干節點對應一個文本分類模型;所述基于所述訓練集對所述第二標簽樹對應的文本分類模型進行訓練的步驟,包括:
基于所述訓練集分別對所述第二標簽樹中每一層的文本分類模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010884803.3/1.html,轉載請聲明來源鉆瓜專利網。





