[發(fā)明專利]多粒度分詞標注數(shù)據(jù)自動獲取方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201710791701.5 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN107818079A | 公開(公告)日: | 2018-03-20 |
| 發(fā)明(設計)人: | 李正華;張民;龔晨 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 蘇州市中南偉業(yè)知識產權代理事務所(普通合伙)32257 | 代理人: | 楊慧林 |
| 地址: | 215000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 粒度 分詞 標注 數(shù)據(jù) 自動 獲取 方法 系統(tǒng) | ||
1.一種多粒度分詞標注數(shù)據(jù)自動獲取方法,其特征在于,包括:
選擇n種不同規(guī)范的單粒度分詞標注數(shù)據(jù)集,其中n≥2,且n為正整數(shù);
將至少一種單粒度分詞標注數(shù)據(jù)集中的句子分別轉化為遵守其他n-1種分詞規(guī)范的分詞序列,被轉化后的句子對應的n種不同規(guī)范的分詞序列為該句子的多粒度分詞結果;
合并每一個句子的多粒度分詞結果,形成多粒度分詞標注數(shù)據(jù)集。
2.根據(jù)權利要求1所述的多粒度分詞標注數(shù)據(jù)自動獲取方法,其特征在于,還包括:將每一個句子對應的多粒度分詞結果轉化為多粒度分詞層次結構,所述的多粒度分詞層次結構各層分別為句子、不能進一步與其他詞語合并成更粗粒度的詞語、詞語、字。
3.根據(jù)權利要求2所述的多粒度分詞標注數(shù)據(jù)自動獲取方法,其特征在于,還包括:檢查所述多粒度分詞層次結構中詞語是否存在交叉,若存在交叉,則進行人工校正。
4.根據(jù)權利要求1所述的多粒度分詞標注數(shù)據(jù)自動獲取方法,其特征在于,將一種單粒度分詞標注數(shù)據(jù)集中的句子轉化為遵守其他分詞規(guī)范的分詞序列過程中,首先,將單粒度分詞標注數(shù)據(jù)集中的句子劃分出train數(shù)據(jù)、dev數(shù)據(jù)、test數(shù)據(jù)三類數(shù)據(jù),然后,三類數(shù)據(jù)分別轉化為遵守其他分詞規(guī)范的分詞序列。
5.根據(jù)權利要求1所述的多粒度分詞標注數(shù)據(jù)自動獲取方法,其特征在于,采用基于異構標注數(shù)據(jù)的快速序列標注方法將一種單粒度分詞標注數(shù)據(jù)集中的句子轉化為遵守其他分詞規(guī)范的分詞序列。
6.根據(jù)權利要求1所述的多粒度分詞標注數(shù)據(jù)自動獲取方法,其特征在于,將至少兩種單粒度分詞標注數(shù)據(jù)集中的句子分別轉化為遵守其他n-1種分詞規(guī)范的分詞序列。
7.一種多粒度分詞標注數(shù)據(jù)自動獲取系統(tǒng),其特征在于,包括:
分詞規(guī)范選擇單元,用于選擇n種不同規(guī)范的單粒度分詞標注數(shù)據(jù)集,其中n≥2,且n為正整數(shù);
句子規(guī)范轉換單元,用于將至少一種單粒度分詞標注數(shù)據(jù)集中的句子分別轉化為遵守其他n-1種分詞規(guī)范的分詞序列,被轉化后的句子對應的n種不同規(guī)范的分詞序列為該句子的多粒度分詞結果;
分詞序列合并單元,用于合并每一個句子的多粒度分詞結果,形成多粒度分詞標注數(shù)據(jù)集。
8.根據(jù)權利要求7所述的多粒度分詞標注數(shù)據(jù)自動獲取系統(tǒng),其特征在于,還包括層次結構生成單元,用于將每一個句子對應的多粒度分詞結果轉化為多粒度分詞層次結構,所述的多粒度分詞層次結構各層分別為句子、不能進一步與其他詞語合并成更粗粒度的詞語、詞語、字。
9.根據(jù)權利要求8所述的多粒度分詞標注數(shù)據(jù)自動獲取系統(tǒng),其特征在于,糾錯單元,用于檢查所述多粒度分詞層次結構中詞語是否存在交叉。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經(jīng)蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710791701.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





