[發明專利]一種文本表示的生成方法及裝置有效
| 申請號: | 201810032221.5 | 申請日: | 2018-01-12 |
| 公開(公告)號: | CN108287820B | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 蔣宏飛;趙紅紅;晉耀紅;楊凱程 | 申請(專利權)人: | 鼎富智能科技有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/242;G06F40/30 |
| 代理公司: | 北京弘權知識產權代理有限公司 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 表示 生成 方法 裝置 | ||
1.一種文本表示的生成方法,其特征在于,包括:
獲取待處理文本,所述待處理文本包括至少兩個待處理字符;
生成第i個待處理字符對應的第i總向量,所述第i總向量由第i個待處理字符的字向量、句法結構向量、詞性標記向量和位置標記向量拼接而成,其中,i=1,2,……,n,n為所述待處理文本中待處理字符的個數;
使用所述第i總向量和第(i-1)隱向量生成所述第i個待處理字符對應的第i隱向量,其中,第0隱向量為預設隱向量;
如果i=n,則生成待處理文本的文本表示,所述待處理文本的文本表示為第n個待處理字符對應的第n隱向量;
在所述生成第i個待處理字符對應的第i總向量之前,所述方法還包括:
獲取第i個待處理字符的字向量、句法結構向量、詞性標記向量和位置標記向量,
其中,所述獲取第i個待處理字符的句法結構向量包括:
獲取所述待處理文本的句法樹,所述句法樹包括所述待處理文本中各個待處理字段的句法結構向量,每個所述待處理字段由至少一個待處理字符組成;
從所述句法樹中選取第i個待處理字符所屬待處理字段的句法結構向量作為所述第i個待處理字符的句法結構向量。
2.根據權利要求1所述的方法,其特征在于,所述獲取第i個待處理字符的詞性標記向量包括:
獲取所述待處理文本中各個待處理字段的詞性;
獲取第i個待處理字符所屬待處理字段的詞性作為所述第i個待處理字符的詞性;
根據所述第i個待處理字符的詞性獲取所述第i個待處理字符的詞性標記向量。
3.根據權利要求1或2所述的方法,其特征在于,所述方法在獲取待處理文本之前還包括:
獲取訓練語料中的文本,所述文本包括至少兩個字符;
生成第p個字符對應的第p總向量,所述第p總向量由第p個字符的字向量、句法結構向量、詞性標記向量和位置標記向量拼接而成,其中,p=1,2,……,m,m為所述訓練語料中的文本中字符的個數;
如果pm,則使用所述第p總向量和第(p-1)隱向量生成第p個字符的第p隱向量,其中,第0隱向量為預設隱向量;
如果p=m,則生成訓練語料中的文本對應的文本表示,所述訓練語料中的文本對應的文本表示為使用第m模擬總向量和第(m-1)隱向量生成的第m個字符的第m隱向量;
使用所述第m模擬總向量獲取生成字符在預設詞表中的序號;
使用所述字符在所述預設詞表中的序號以及所述生成字符在所述預設詞表中的序號獲取所述文本表示的誤差;
根據所述誤差通過反向傳播更新所述方法使用的參數。
4.一種文本表示生成裝置,其特征在于,所述裝置包括:
文本獲取模塊,用于獲取待處理文本,所述待處理文本包括至少兩個待處理字符;
總向量生成模塊,用于生成第i個待處理字符對應的第i總向量,所述第i總向量由第i個待處理字符的字向量、句法結構向量、詞性標記向量和位置標記向量拼接而成,其中,i=1,2,……,n,n為所述待處理文本中待處理字符的個數;
隱向量生成模塊,用于使用所述第i總向量和第(i-1)隱向量生成第i個待處理字符的第i隱向量,其中,第0隱向量為預設隱向量;
隱向量生成模塊,還用于生成待處理文本的文本表示,所述待處理文本的文本表示為第n個待處理字符對應的第n隱向量;
所述文本表示生成裝置還包括:
子向量獲取模塊,用于在所述生成第i個待處理字符對應的第i總向量之前,獲取第i個待處理字符的字向量、句法結構向量、詞性標記向量和位置標記向量,其中,所述子向量獲取模塊包括:
句法樹獲取單元,用于獲取所述待處理文本的句法樹,所述句法樹包括所述待處理文本中各個待處理字段的句法結構向量,每個所述待處理字段由至少一個待處理字符組成;
句法結構向量獲取單元,用于從所述句法樹中選取第i個待處理字符所屬待處理字段的句法結構向量作為所述第i個待處理字符的句法結構向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎富智能科技有限公司,未經鼎富智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810032221.5/1.html,轉載請聲明來源鉆瓜專利網。





