[發明專利]一種文本標簽標注設備、方法和計算設備有效
| 申請號: | 201810129331.3 | 申請日: | 2018-02-08 |
| 公開(公告)號: | CN108334499B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 郭龍;張東祥;陳李江 | 申請(專利權)人: | 海南云江科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06N3/04 |
| 代理公司: | 北京思睿峰知識產權代理有限公司 11396 | 代理人: | 謝建云;趙愛軍 |
| 地址: | 571924 海南省老*** | 國省代碼: | 海南;46 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 標簽 標注 設備 方法 計算 | ||
本發明公開了一種文本標簽標注設備,用于對文本標簽進行標注,所述設備包括:輸入模塊,適于接收文本輸入,并將該文本轉換輸出為向量矩陣;卷積神經網絡模塊,與輸入模塊連接,適于根據向量矩陣輸出文本的局部語義特征;循環神經網絡模塊,與輸入模塊連接,適于根據向量矩陣輸出文本的長距離語義特征;注意力模型模塊,與卷積神經網絡模塊和循環神經網絡模塊連接,適于根據局部語義特征和長距離語義特征輸出文本中各單字的權重;以及輸出模塊,與注意力模型模塊連接,適于接收文本中各單字的權重輸出文本標簽及各標簽的概率。本發明還公開了該文本標簽標注設備的訓練方法,以及相應的文本標簽標注方法和計算設備。
技術領域
本發明涉及文本數據分析領域,尤其涉及一種文本標簽標注設備及訓練方法、文本標簽標注方法和計算設備。
背景技術
隨著計算機和互聯網技術的發展,中小學教育,乃至大學教育中的練習和考試題目均實現了電子化存儲,并可上傳到網絡上供學生使用。隨著時間的推移,題目的數量會越來越大。由于每個題目都會涉及特定知識點且具有特定難度,要從海量的題目中找到涵蓋某些知識點并具有特定單獨的題目,將變得非常不易。目前常用的解決方式是:由老師和教輔人員手動對題目進行標注,以指定該題目對應哪些知識點。然而此種方式增加了老師工作強度,非常費時費力且效率過低。
因此,需要一種人工智能標注技術來對題目標簽進行自動標注。
發明內容
鑒于上述問題,本發明提出了一種文本標簽標注設備及訓練方法、文本標簽標注方法和計算設備,以力圖解決或者至少解決上面存在的問題。
根據本發明的一個方面,提供一種文本標簽標注設備,用于對文本標簽進行標注,設備包括:輸入模塊,適于接收文本輸入,并將該文本轉換輸出為向量矩陣;卷積神經網絡模塊,與輸入模塊連接,適于根據所述向量矩陣輸出文本的局部語義特征;循環神經網絡模塊,與輸入模塊連接,適于根據所述向量矩陣輸出文本的長距離語義特征;注意力模型模塊,與卷積神經網絡模塊和循環神經網絡模塊連接,適于根據局部語義特征和長距離語義特征輸出文本中各單字的權重;以及輸出模塊,與注意力模型模塊連接,適于接收所述文本中各單字的權重輸出文本標簽及各標簽的概率。
可選地,在根據本發明的文本標簽標注設備中,卷積神經網絡模塊包括:第一輸入層,適于接收輸入模塊所輸出的向量矩陣;多個卷積層,分別與第一輸入層并行連接,適于對該向量矩陣進行卷積操作,得到多個特征向量;第一池化層,與多個卷積層連接,適于對多個特征向量進行池化操作,并輸出池化結果;以及第一全連接層,與第一池化層連接,適于對池化結果進行降維操作,得到卷積神經網絡模塊的輸出,該輸出代表文本的局部語義特征。
可選地,在根據本發明的文本標簽標注設備中,多個卷積層適于同時對該向量矩陣進行卷積操作,每個卷積層得到一個特征向量,每個特征向量包含的數值類型為浮點小數;第一池化層適于分別提取每個特征向量中的最大浮點小數,組成一個多維向量。
可選地,在根據本發明的文本標簽標注設備中,卷積神經網絡模塊的輸入維度為w*h,h為輸入文本矩陣的高度,w為輸入文本矩陣的寬度,輸出維度為200;卷積神經網絡模塊包括3種不同卷積核尺寸的卷積層,其中第一至第三卷積層的卷積核大小分別為3*h、4*h和5*h,且每種卷積層均包含256個特征圖;第一池化層的輸出向量維度為768,第一全連接層的權重參數維度為768*200,輸出向量維度為200。
可選地,在根據本發明的文本標簽標注設備中,循環神經網絡模塊包括:第二輸入層,適于接收輸入模塊所輸出的向量矩陣;隱藏層,與第二輸入層連接,適于將文本中每個單字的詞向量表示為該詞向量與前向后向上下文向量連接起來的新形式向量;第二池化層,與隱藏層連接,適于對所有單字的新形式向量進行池化操作,并輸出池化結果;以及第二全連接層,與第二池化層連接,適于對池化結果進行降維操作,得到循環神經網絡模塊的輸出,該輸出代表文本的長距離語義特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于海南云江科技有限公司,未經海南云江科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810129331.3/2.html,轉載請聲明來源鉆瓜專利網。





