[發明專利]語料標注方法和裝置有效
| 申請號: | 201710980408.3 | 申請日: | 2017-10-19 |
| 公開(公告)號: | CN109683773B | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 杜志娟 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F3/0484 | 分類號: | G06F3/0484;G06F40/295;G06F16/31 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 趙囡囡 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 標注 方法 裝置 | ||
本發明公開了一種語料標注方法和裝置。其中,該方法包括:檢測對待標注句子的文本選擇操作;在文本選擇操作結束得到選擇文本后,確定選擇文本對應的標簽;在待標注句子的節點以外的位置顯示選擇文本對應的標簽,以及將標注有選擇文本對應的標簽的待標注句子的位置信息和選擇文本在待標注句子中的位置信息存儲在預設數據庫中。本發明解決了現有技術中在進行語料標注時將標注結果插入句中或顯示在句子末尾導致的多次標注時重復計算句子位置的技術問題。
技術領域
本發明涉及計算機互聯網領域,具體而言,涉及一種語料標注方法和裝置。
背景技術
在現在的大數據時代,數據無疑是所有大數據生存的根基,而如何有效而快速的收集數據則是大數據團隊的競爭優勢,在收集數據的過程中,可能會需要對語料進行標注。
現有技術中已經有的關于語料標注的具體展現方案主要針對情感標注,主要包括兩種方式,第一種方式是直接將打標注的結果存入數據庫并將標注結果展示在句子末尾,第二種方式是直接打亂句子結構,將標注的結果直接插入句子中,并且存入數據庫中的是被插入結果的句子以及打標注的句子起始位置;在對句子進行標注的時候,往往會需要對句子進行二次標注、三次標注等多次標注,例如,如果需要在句子中進行二次標注,采用上述兩種方式時,由于句子結尾或者句中插入有標注結果,因此一次標注后句子的起始位置不是原始句子的起始位置,為了準確的知道二次標注在原始句子中的位置,需要去掉句子中的一次標注的結果,也就是說,由于存入數據庫的句子都加入了存有結果的標簽,因此句子的結構發生了變化,如果一句話內需要打標注的詞語較多,每次想要獲取打標注的真正位置,都必須經過計算,去掉之前標注的標注結果,因此會導致重復計算位置,耗費時間又耗費性能。
針對上述現有技術中在進行語料標注時將標注結果插入句中或顯示在句子末尾導致的多次標注時重復計算句子位置的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種語料標注方法和裝置,以至少解決現有技術中在進行語料標注時將標注結果插入句中或顯示在句子末尾導致的多次標注時重復計算句子位置的技術問題。
根據本發明實施例的一個方面,提供了一種語料標注方法,包括:檢測對待標注句子的文本選擇操作;在文本選擇操作結束得到選擇文本后,確定選擇文本對應的標簽;在待標注句子的節點以外的位置顯示選擇文本對應的標簽,以及將標注有選擇文本對應的標簽的待標注句子的位置信息和選擇文本在待標注句子中的位置信息存儲在預設數據庫中。
根據本發明實施例的另一方面,還提供了一種語料標注裝置,包括:檢測模塊,用于檢測對待標注句子的文本選擇操作;第一確定模塊,用于在文本選擇操作結束得到選擇文本后,確定選擇文本對應的標簽;處理模塊,用于在待標注句子的節點以外的位置顯示選擇文本對應的標簽,以及將標注有選擇文本對應的標簽的待標注句子的位置信息和選擇文本在待標注句子中的位置信息存儲在預設數據庫中。
根據本發明實施例的另一方面,還提供了一種存儲介質,存儲介質包括存儲的程序,其中,在程序運行時控制存儲介質所在設備執行上述語料標注方法。
根據本發明實施例的另一方面,還提供了一種處理器,處理器用于運行程序,其中,程序運行時執行上述語料標注方法。
根據本發明實施例的另一方面,還提供了一種終端,包括:檢測模塊,用于檢測對待標注句子的文本選擇操作;第一確定模塊,用于在文本選擇操作結束得到選擇文本后,確定選擇文本對應的標簽;處理模塊,用于在待標注句子的節點以外的位置顯示選擇文本對應的標簽,以及將標注有選擇文本對應的標簽的待標注句子的位置信息和選擇文本在待標注句子中的位置信息存儲在預設數據庫中;處理器,處理器運行程序,其中,程序運行時對于從檢測模塊、第一確定模塊和處理模塊輸出的數據執行上述語料標注方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710980408.3/2.html,轉載請聲明來源鉆瓜專利網。





