[發明專利]一種基于內部語義層次結構的詞嵌入表示方法有效
| 申請號: | 201710256916.7 | 申請日: | 2017-04-19 |
| 公開(公告)號: | CN107025219B | 公開(公告)日: | 2019-07-26 |
| 發明(設計)人: | 蘇勁松;楊靜;阮志偉;張祥文 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 內部 語義 層次 結構 嵌入 表示 方法 | ||
1.一種基于內部語義層次結構的詞嵌入表示方法,其特征在于包括以下步驟:
1)使用開源工具獲得輸入文本中每個詞語的內部層次結構:該結構類似于傳統短語樹結構,不同的是以字符為基本單位,并且標注每個字符在該結構中的層次位置和類別信息;
2)根據層次結構不變性原則對上述結構進行序列化操作,得到保持詞內部的層次位置、類別信息的文本序列;
3)將雙向門控循環單元GRU網絡作用于上述序列進行嵌入表示編碼,然后將前向和后向門控循環單元GRU網絡得到的兩個嵌入表示向量進行拼接,最后通過非線性變換,得到詞語的最終嵌入表示向量;
4)對樹形結構進行序列化操作,具體方法如下:
利用開源工具獲得字符級別樹形式的詞內部層次結構,抽取序列化的詞結構信息,采用深度優先遍歷得到序列化結果,從序列化結果中抽取出各個詞的序列信息,所述深度優先遍歷的過程如下:
假設由開源工具所得到的樹形結構中,各類別信息所在的節點構成當前樹的節點集合V={v1,v2,...,vk},k為節點個數,選定樹的根節點作為起始節點,先對其左子樹進行遍歷,再對其右子樹進行遍歷,對于子樹遍歷過程中遇到的節點,若其不是葉子節點,則繼續對其左子樹和右子樹進行遍歷,如此遞歸進行,直至遍歷至樹中的最后一個葉子節點為止,至此,得到該樹形結構的序列化結果;
序列化操作遵循詞內部字符的層次結構不變性,即序列化后的結果中仍保持字符在樹中左右分支順序、類別信息的不變。
2.如權利要求1所述一種基于內部語義層次結構的詞嵌入表示方法,其特征在于所述非線性變換采用修正線性單元操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710256916.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本去重方法和裝置
- 下一篇:一種互聯網用戶數據處理方法、裝置及系統





