[發明專利]一種自然語言處理分類模型中多標簽分布學習的方法和系統在審
| 申請號: | 202010550434.4 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111797234A | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 葉蔚;劉培陽;張世琨;張君福 | 申請(專利權)人: | 北京北大軟件工程股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/211;G06F40/284;G06F40/30;G06K9/62 |
| 代理公司: | 北京細軟智谷知識產權代理有限責任公司 11471 | 代理人: | 岳鳳羽 |
| 地址: | 100089 北京市海淀區北四環西路67號中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自然語言 處理 分類 模型 標簽 分布 學習 方法 系統 | ||
本發明公開了一種自然語言處理分類模型中多標簽分布學習的方法和系統,屬于自然語言處理領域。在獲取訓練樣本后,分別計算得到每個標簽的標簽向量和每個樣本的樣本向量;然后根據標簽向量和樣本向量計算得到每個樣本與每個標簽之間的相關性;再通過每個樣本與每個標簽之間的相關性計算得到每個樣本的標簽分布;最后根據標簽分布更新自然處理分類模型。通過這種方式,能夠使經過更新后的自然處理分類模型的樣本得到更準確的標簽,大大提高了自然處理分類模型的泛化能力。
技術領域
本發明涉及自然語言處理領域,特別地,涉及一種自然語言處理分類模型中多標簽分布學習的方法和系統。
背景技術
自然語言處理任務主要分為三類,篇章級分類任務,句子級分類任務,還有單詞級別的分類任務。傳統的分類任務中經常會出現一種情況,就是一個樣本不僅僅會屬于一個分類,于是多標簽學習(multi-label learning)應運而生。但是多標簽學習仍然有一些不足,就是很多樣本對于是否屬于一個標簽并不是特別明確,而是處于一種“既可以被打上這個標簽,也可以不被打上這個標簽”的狀態。現有技術在計算樣本的標簽時得到的標簽分布不精確,不利于提高模型的泛化能力。
發明內容
為了克服現有技術的不足,本發明提供一種自然語言處理分類模型中能夠得到精確的標簽分布且能夠提高模型泛化能力的多標簽分布學習的方法和系統
本發明解決其技術問題所采用的技術方案是:
一方面,
一種自然語言處理分類模型中多標簽分布學習的方法,包括以下步驟:
獲取訓練樣本;
根據所有樣本的數據計算得到每個標簽的標簽向量和每個樣本的樣本向量;
根據所述標簽向量和所述樣本向量計算得到每個樣本與每個標簽之間的相關性;
根據樣本與每個標簽之間的相關性計算得到每個樣本的標簽分布;
根據所述標簽分布更新所述自然語言處理分類模型。
進一步地,在獲取訓練樣本時還包括:
將語料庫中的所有單詞轉換成詞向量,所述詞向量包含了對應單詞在所述樣本中的上下文語義信息。
進一步地,所述將語料庫中的所有單詞轉換成詞向量包括:
將所述樣本中以句子切分;
對每個句子按照單詞進行切分;
通過CBOW算法對每個句子進行建模與訓練,得到每個單詞對應的詞向量矩陣,即單詞與詞向量的映射。
進一步地,根據所有樣本的數據計算得到每個標簽的標簽向量和每個樣本的樣本向量包括:
分別計算每個單詞對于樣本和對于標簽的重要性;
以所述重要性為權重,對所述單詞的詞向量進行加權求和得到每個標簽的標簽向量和每個樣本的樣本向量。
進一步地,所述計算每個單詞對于樣本的重要性包括:
計算每個單詞對于特定標簽的單詞顯著性與單詞對于樣本集合的關聯性;
根據所述單詞顯著性與所述單詞對于樣本集合的關聯性計算每個單詞相對于特定樣本的重要性。
進一步地,所述計算每個單詞對于標簽的重要性包括:
計算每個單詞對于特定標簽的單詞顯著性與單詞對于標簽集合的關聯性;
根據所述單詞顯著性與所述單詞對于標簽集合的關聯性計算每個單詞相對于特定標簽的重要性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京北大軟件工程股份有限公司,未經北京北大軟件工程股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010550434.4/2.html,轉載請聲明來源鉆瓜專利網。





