[發明專利]一種文本結構化標注方法、系統、設備和介質在審
申請號: | 202110365061.8 | 申請日: | 2021-04-06 |
公開(公告)號: | CN113051401A | 公開(公告)日: | 2021-06-29 |
發明(設計)人: | 姚娟娟;柴洪峰;樊代明 | 申請(專利權)人: | 明品云(北京)數據科技有限公司 |
主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289 |
代理公司: | 上海漢之律師事務所 31378 | 代理人: | 馮華 |
地址: | 102400 北京市*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 文本 結構 標注 方法 系統 設備 介質 | ||
1.一種文本結構化標注方法,其特征在于,包括:
獲取待標注文本,并通過交互平臺從所述待標注文本中獲取第一文本數據;
通過對所述第一文本數據進行分詞處理,確定標注范圍;
對所述標注范圍內的詞進行分類標注,并將標注信息通過所述交互平臺輸出至具有對應權限的核驗對象,經過至少兩次核查后,將確認的標注信息用于更新標注詞庫。
2.根據權利要求1所述的文本結構化標注方法,其特征在于,獲取所述待標注文本包括:
對已有文本數據進行排序,并根據文本數據來源設置抽取比例,其中,排序方式包括:按文本字數排序和/或按包含數據類別數排序;
根據所述抽取比例從經過排序的文本數據中獲取所述待標注文本。
3.根據權利要求1所述的文本結構化標注方法,其特征在于,通過對所述第一文本數據進行分詞處理,確定標注范圍,包括:
設置特定領域的標準詞庫,通過所述標準詞庫中標準詞對經過分詞算法得到的分詞結果進行校驗,獲取所述第一文本數據對應的詞集合,其中所述標準詞庫包括:對應領域的背景詞庫、同義詞庫、近義詞庫;
將所述詞集合中與標準詞匹配的詞作為待標注詞。
4.根據權利要求3所述的文本結構化標注方法,其特征在于,對標注范圍內的詞進行分類標注,包括:
獲取與所述待標注詞匹配的一個或多個標準詞類別,通過所述交互平臺對應的交互界面顯示所述待標注詞以及對應類別信息。
5.根據權利要求1所述的文本結構化標注方法,其特征在于,通過具有權限的核驗對象進行核查包括:
基于標注信息創建第一核查任務,所述交互平臺將包含詞以及對應標注信息的數據通過對應的交互界面輸出至具有所述第一核查任務處理權限的核驗對象,經過核查得到第一確認信息,其中,所述第一確認信息包括:詞是否為包含完整語義的最小單位、在所述第一文本數據中詞對應前后位置是否有可被納入對應詞表達的詞匯、詞是否與標注信息匹配;
根據所述第一確認信息創建第二核查任務,所述交互平臺將所述第一確認信息通過對應的交互界面輸出至具有第二核查任務處理權限的核驗對象,經過復查,獲取第二確認信息。
6.根據權利要求5所述的文本結構化標注方法,其特征在于,所述交互界面的操作包括增/刪詞匯、確認/更改標注信息。
7.根據權利要求1所述的文本結構化標注方法,其特征在于,還包括:根據所述交互平臺設置的更新任務,對所述標注詞庫進行更新;當所述標注詞庫中詞被確認次數超出設定閾值時,所述交互平臺不再顯示對應詞的確認信息;其中,更新任務設置方式包括:定期更新、基于事件觸發更新。
8.一種文本結構化標注系統,其特征在于,包括:
文本獲取模塊,用于獲取待標注文本,并通過交互平臺從所述待標注文本中獲取第一文本數據;
標注詞確定模塊,用于通過對所述第一文本數據進行分詞處理,確定標注范圍;
標注核查模塊,用于對所述標注范圍內的詞進行分類標注,并將標注信息通過所述交互平臺輸出至具有對應權限的核驗對象,經過至少兩次核查后,將確認的標注信息用于更新標注詞庫。
9.一種文本結構化標注設備,其特征在于,包括:
一個或多個處理器;和
其上存儲有指令的一個或多個機器可讀介質,當所述一個或多個處理器執行時,使得所述設備執行如權利要求1-7中一個或多個所述的方法。
10.一個或多個機器可讀介質,其特征在于,其上存儲有指令,當由一個或多個處理器執行時,使得設備執行如權利要求1-7中一個或多個所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于明品云(北京)數據科技有限公司,未經明品云(北京)數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110365061.8/1.html,轉載請聲明來源鉆瓜專利網。