[發明專利]一種基于概念文本的詞向量快速生成方法和裝置有效
| 申請號: | 202110592515.5 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113268565B | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 孫宇清;潘韋;劉天元 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 濟南竹森知識產權代理事務所(普通合伙) 37270 | 代理人: | 呂利敏;孫憲維 |
| 地址: | 250013 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 概念 文本 向量 快速 生成 方法 裝置 | ||
1.一種基于概念文本的詞向量快速生成方法,其特征在于,包括:對一段分好詞后的概念文本,單詞的組成字符以及每個單詞的詞性信息依次進行向量生成階段處理和語義聚合階段處理;
其中,輸入信息在所述向量生成階段生成輸出信息,即分別生成針對單個概念文本的單詞向量;
其中,針對同樣的單詞的多個概念文本的詞向量進行語義聚合,最終輸出綜合語義向量;
所述詞向量快速生成方法中還包括,通過向量生成階段進行模型學習:
其中,向量生成階段的學習過程包括,首先對單詞的組成字符序列進行處理,利用詞wunk的字單元c1,c2,...,cn通過雙向長短時記憶循環神經網絡,即BiLSTM網絡編碼生成該詞匯詞向量的初始表示,將詞wunk的n個字符分別輸入到前向長短時記憶循環神經網絡,即LSTM和后向LSTM中,分別取相應的循環神經網絡的最后一個時間步的隱藏狀態和作為wunk的前向編碼和后向編碼,然后將LSTM的前向和后向的隱藏狀態連接起來形成wunk的最終詞向量的初始化狀態將所述初始化狀態送到下一層網絡中wunk中的位置:
接下來是對概念文本的處理:對于文本C=w1,w2,...,wunk,...wm進行語句序列編碼,其中每個BiLSTM神經網絡單元都接收單詞的詞性標注POS信息和單詞wi的詞向量
hi=BiLSTMw(ei,hi-1),i∈[1...n] (4)
所述POS信息的類別向量是事先定義好的獨熱編碼,并將wunk的POS信息設置為特定值;對于取所有中間隱藏層向量,作為下一層的輸入,其中hi表示第i個時間步的隱藏層向量。
2.根據權利要求1所述一種基于概念文本的詞向量快速生成方法,其特征在于,所述輸入信息還包括單詞的組成字符以及每個單詞的詞性信息。
3.根據權利要求2所述一種基于概念文本的詞向量快速生成方法,其特征在于,在向量生成階段中,使用雙層注意力機制對單詞字符組件和上下文的信息進行語義編碼,最終生成詞向量。
4.根據權利要求3所述一種基于概念文本的詞向量快速生成方法,其特征在于,所述雙層注意力機制至少包括自注意力結構網絡層和前向注意力網絡層。
5.根據權利要求1所述一種基于概念文本的詞向量快速生成方法,其特征在于,所述語義聚合階段采用卷積神經網絡對同一單詞的由多個概念文本的獲得的詞向量進行聚合,最終輸出綜合語義向量。
6.根據權利要求5所述一種基于概念文本的詞向量快速生成方法,其特征在于,所述語義聚合階段還包括使用新概念文本對向量進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110592515.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于圖像的距離確定方法及系統
- 下一篇:一種便于取料的潛水泵底座模具





