[發明專利]基于層次嵌入的方面抽取方法在審
| 申請號: | 201810840667.0 | 申請日: | 2018-07-27 |
| 公開(公告)號: | CN108984532A | 公開(公告)日: | 2018-12-11 |
| 發明(設計)人: | 劉漳輝;肖順鑫;郭昆;陳羽中 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抽取 嵌入的 嵌入 神經網絡 雙向循環 預處理操作 原始語料 多階段 有效地 級聯 標注 自動化 | ||
本發明涉及一種基于層次嵌入的方面抽取方法,對原始語料執行多階段的預處理操作,使用字符層次的嵌入和雙向循環神經網絡獲得詞的高層次特征,通過級聯詞嵌入與字符嵌入特征以作為詞層次雙向循環神經網絡的輸入,獲得最終標注結果。本發明提出的一種基于層次嵌入的方面抽取方法,有效地提高方面抽取模型自動化的程度。
技術領域
本發明涉及自然語言處理中的細粒度情感分析領域,特別是一種基于層次嵌入的方面抽取方法。
背景技術
隨著信息時代的到來,網絡觀點調查已經逐步取代了傳統紙質問卷調查,不僅包括商品評論領域,還涉及社會公眾事件、外交以及國家政策等領域。但是隨著互聯網便利性的增強,網絡上涌現出大量的用戶生成內容,除了新聞報道等客觀信息外,帶有主觀色彩的評論數據也占據了很大一部分,且呈現出大數據化的發展趨勢。對這些海量的數據進行細粒度的情感分析(又稱觀點挖掘),不僅有利于發現、分析及控制輿論,還可以幫助生產者改進產品、服務質量,以及幫助消費者做出購買決策。
對評論文本進行細粒度情感分析,即挖掘出文本中的評價對象(又稱方面)、觀點詞及觀點持有者。如在筆記本電腦評論“Thebattery life is long”中,觀點持有者即發布這條評論的消費者,用觀點詞“long”對方面短語“battery life”進行描述。現如今,觀點挖掘技術被廣泛應用于自然語言處理、人工智能等領域。
現有的方面抽取研究大多集中于基于規則或基于傳統機器學習模型的方法。基于規則的方法簡單易行、執行效率高,但性能嚴重依賴于專家制定的規則質量和語料中語法的正確性;基于傳統機器學習模型的方法,大多采用HMM模型和CRF模型,本質上是將方面抽取看成是一個序列標注任務,獲得比基于規則更高的性能,但是該類方法需要大量的特征工程,性能也嚴重依賴于所選特征的質量。
發明內容
本發明的目的在于提供一種基于層次嵌入的方面抽取方法,以克服現有技術中存在的缺陷。
為實現上述目的,本發明的技術方案是:一種基于層次嵌入的方面抽取方法,按照如下步驟實現:
步驟S1:對在線評論文本進行預處理;
步驟S2:對低頻詞進行過濾,過濾掉文本中出現頻次小于預設閾值的單詞;
步驟S3:進行字符嵌入和單詞嵌入初始化;
步驟S4:通過采用字符嵌入和字符層次雙向循環神經網絡獲得字符層次的詞特征;
步驟S5:將詞嵌入特征和字符層次的詞特征進行級聯,通過采用詞層次的雙向循環神經網絡獲得最終的標注結果。
在本發明一實施例中,在所述步驟S1中,所述預處理還包括如下步驟:
步驟S11:進行分詞處理;采用NLTK工具提供的正則分詞器,并設置正則匹配規則;
步驟S12:進行特殊符號處理;移除文本中出現的各種標點符號;
步驟S13:進行數字處理;將語料中的所有數字都用單詞“DIGIT”進行替換;
步驟S14:進行轉小寫處理;將同一個單詞的不同大小寫形式都轉換成統一的小寫形式;
步驟S15:進行詞形還原處理;采用NLTK工具提供的詞形還原功能將一個詞的各種形式還原到一般形式;
步驟S16:進行詞干提取處理;采用NLTK工具提供的詞干提取功能提取一個單詞的詞干或詞根形式。
在本發明一實施例中,在所述步驟S2中,還包括如下步驟:
步驟S21:選定低頻詞過濾閾值;根據如下公式過濾掉出現頻次小于過濾閾值的單詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810840667.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于語文教材的圖書閱讀難度方法及系統
- 下一篇:一種詞匯義原預測方法及裝置





