[發明專利]基于層次嵌入的方面抽取方法在審
| 申請號: | 201810840667.0 | 申請日: | 2018-07-27 |
| 公開(公告)號: | CN108984532A | 公開(公告)日: | 2018-12-11 |
| 發明(設計)人: | 劉漳輝;肖順鑫;郭昆;陳羽中 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抽取 嵌入的 嵌入 神經網絡 雙向循環 預處理操作 原始語料 多階段 有效地 級聯 標注 自動化 | ||
1.一種基于層次嵌入的方面抽取方法,其特征在于,按照如下步驟實現:
步驟S1:對在線評論文本進行預處理;
步驟S2:對低頻詞進行過濾,過濾掉文本中出現頻次小于預設閾值的單詞;
步驟S3:進行字符嵌入和單詞嵌入初始化;
步驟S4:通過采用字符嵌入和字符層次雙向循環神經網絡獲得字符層次的詞特征;
步驟S5:將詞嵌入特征和字符層次的詞特征進行級聯,通過采用詞層次的雙向循環神經網絡獲得最終的標注結果。
2.根據權利要求1所述的基于層次嵌入的方面抽取方法,其特征在于,在所述步驟S1中,所述預處理還包括如下步驟:
步驟S11:進行分詞處理;采用NLTK工具提供的正則分詞器,并設置正則匹配規則;
步驟S12:進行特殊符號處理;移除文本中出現的各種標點符號;
步驟S13:進行數字處理;將語料中的所有數字都用單詞“DIGIT”進行替換;
步驟S14:進行轉小寫處理;將同一個單詞的不同大小寫形式都轉換成統一的小寫形式;
步驟S15:進行詞形還原處理;采用NLTK工具提供的詞形還原功能將一個詞的各種形式還原到一般形式;
步驟S16:進行詞干提取處理;采用NLTK工具提供的詞干提取功能提取一個單詞的詞干或詞根形式。
3.根據權利要求1所述的基于層次嵌入的方面抽取方法,其特征在于,在所述步驟S2中,還包括如下步驟:
步驟S21:選定低頻詞過濾閾值;根據如下公式過濾掉出現頻次小于過濾閾值的單詞;
Lw={wi|fi<F}
其中,fi為單詞wi在所有語料中出現過的次數,F為相應的低頻詞過濾閾值,且F∈{1,2,3,4,5,6,7,8,9,10};
步驟S22:進行低頻詞過濾;根據所選定的低頻詞過濾閾值,過濾掉所用到的語料中,出現次數少于該閾值的所有低頻詞。
4.根據權利要求1所述的基于層次嵌入的方面抽取方法,其特征在于,在所述步驟S3中,還包括如下步驟:
步驟S31:采用Google Embeddings初始化詞嵌入;該Google Embeddings在谷歌新聞語料上通過采用基于詞袋的模型進行訓練建立,其中,每個單詞都被表示成一個固定維度為300維的向量;將經預處理和低頻詞過濾后的所有單詞使用Google Embeddings進行向量化,如果該單詞不存在于Google Embedding,則將該單詞標記為“UNKONWN”并進行相應的向量化;
步驟S32:采用Amazon Embeddings初始化詞嵌入;該Amazon Embeddings在Amazon商品評論語料上采用基于詞袋的模型進行訓練建立,其中,每個單詞都被表示成一個固定維度為300維的向量;將經預處理和低頻詞過濾后的所有單詞使用Amazon Embeddings進行向量化,如果該單詞不存在于Amazon Embeddings,則將該單詞標記為“UNKONWN”并進行相應的向量化;
步驟S33:隨機初始化詞嵌入;將每個單詞隨機初始化為預設固定維數的向量,向量中的每一維的數值都介于0到1之間,其維數dw={50,100,150,200,250,300};
步驟S34:隨機初始化字符嵌入;將單詞中的每個字符都隨機初始化為預設固定維數的向量,向量中的每一維的數值都介于0到1之間,其維數dc=150。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810840667.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于語文教材的圖書閱讀難度方法及系統
- 下一篇:一種詞匯義原預測方法及裝置





