[發明專利]基于序列標注建模的多粒度分詞方法及系統有效
| 申請號: | 201710790736.7 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN107729312B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 張民;李正華;龔晨 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06N3/04 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 楊慧林 |
| 地址: | 215000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 序列 標注 建模 粒度 分詞 方法 系統 | ||
本發明涉及一種基于序列標注建模的多粒度分詞方法與系統,提供了一種采用機器學習的方式獲取多粒度標簽序列的方法及系統,本發明所述的方法,包括:將至少一種單粒度標注數據集中的句子分別轉化為遵守其他n?1種分詞規范的分詞序列,將每一個句子對應的n種遵守不同規范分詞序列轉化為多粒度分詞層次結構,根據預定的編碼方法以及多粒度分詞層次結構,得到每一個句子的每一個字的多粒度標簽,進而得到每一個句子的多粒度標簽序列;基于所述的包含句子和對應多粒度標簽序列的數據集,通過訓練序列標注模型,得到多粒度序列標注模型。本發明首次提出了多粒度分詞的概念,能夠快速、自動的獲取多粒度分詞層次結構。
技術領域
本發明涉及自然語言處理技術領域,特別是涉及一種基于序列標注建模的多粒度分詞方法及系統。
背景技術
傳統的分詞任務都為單粒度分詞,即一個連續的字序列只能按照一種指定的規范重新組合成唯一的一個詞序列。多粒度分詞是將一個連續字序列按照不同的規范劃分成多種具有不同粒度的詞序列。
目前,分詞任務都為單粒度分詞任務,同時,現有的人工標注分詞數據也都為單粒度分詞數據。因此,國內外尚不存在多粒度分詞數據。多粒度分詞的前提是有多粒度分詞模型。進一步地,有了多粒度分詞數據,才能有效訓練多粒度分詞模型。由于現有的分詞數據都為單粒度分詞數據,且目前尚未出現多粒度分詞數據的獲取方法,因此,若要獲得多粒度分詞數據,一種方法是通過人工標注的方法完成。然而人工標注的方法存在以下幾個缺點:(1)制定多粒度分詞標注規范的難度非常大,顯然比制定一個單粒度分詞標注規范更困難。(2)對標注者的要求更高,需要標注者學習一個更復雜的標注規范。(3)標注過程更復雜,標注結果從序列結構,變成層次結構。總之,人工標注多粒度分詞數據的人力和時間成本非常高。
鑒于上述的缺陷,本設計人積極加以研究創新,以期創設一種基于序列標注建模的多粒度分詞方法及系統,使其更具有產業上的利用價值。
發明內容
為解決上述技術問題,本發明的目的是提供一種利用機器學習的方式將句子的多粒度分詞序列采用多粒度分詞層次結構,進而得到多粒度分詞標簽,進而訓練得到多粒度分詞標簽序列的基于序列標注建模的多粒度分詞方法及系統。
為達到上述發明目的,本發明基于序列標注建模的多粒度分詞方法,包括:
將至少一種單粒度標注數據集中的句子分別轉化為遵守其他n-1種分詞規范的分詞序列,被轉化后的句子對應n種不同規范的分詞序列,其中n≥2,且n為正整數;
將每一個句子對應的n種遵守不同規范分詞序列轉化為多粒度分詞層次結構,所述的多粒度分詞層次結構各層分別為句子、不能進一步與詞語合并成更粗粒度的詞語、詞語、字;
根據預定編碼方法確定多粒度分詞層次結構中每一個字的多粒度標簽,進而得到每一個句子對應的多粒度標簽序列;
根據句子對應的多粒度標簽序列對序列標注模型進行數據訓練,得到多粒度分詞序列標注模型;
基于所述的多粒度分詞序列標注模型得到句子的多粒度標簽序列。
進一步地,還包括通過規則后處理,將句子的多粒度標簽序列轉化為多粒度分詞層次結構。
進一步地,所述的預定編碼方法包括:對于句子中每一個字,根據多粒度分詞層次結構,自底向上遍歷,得到包含這個字的不同粒度的所有詞語,從而得到這個字在這些詞語中的單粒度分詞標簽,進而將這些單粒度分詞標簽按照預定順序合并在一起,構成該字的多粒度標簽,其中所述預定順序為按照分詞粒度從細到粗的順序,或是按照分詞粒度從粗到細的順序。
進一步地,根據句子對應的多粒度標簽序列對基于離散特征的CRF序列標注模型或基于長短時記憶循環神經網絡(Long-Short Term Memory,LSTM)的CRF序列標注模型進行數據訓練,得到多粒度分詞序列標注模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710790736.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種稅務地圖管理的方法、系統及終端設備
- 下一篇:一種生成信用金的方法和系統





