[發明專利]對法律數據完成多任務語義標注的可視化方法和裝置有效
| 申請號: | 202010428278.4 | 申請日: | 2020-05-19 |
| 公開(公告)號: | CN111651270B | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 王義真;杜向陽 | 申請(專利權)人: | 南京擎盾信息科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F40/30;G06F16/35;G06N3/04 |
| 代理公司: | 北京知果之信知識產權代理有限公司 11541 | 代理人: | 卜榮麗 |
| 地址: | 210000 江蘇省南京市雨花臺*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 法律 數據 完成 任務 語義 標注 可視化 方法 裝置 | ||
本發明提供一種對法律數據完成多任務語義標注的可視化方法和裝置,該方法包括:獲取對法律數據進行標注的預設需求;獲取待標注法律數據導入語料庫;根據標注的預設需求對待標注法律數據進行任務的可視化配置和服務器硬件的可視化配置;根據確定的任務類型、各任務類型對應配置的模型參數和獲取的人工標注中的數據,構建對應的多任務學習模型;根據多任務學習模型對待標注法律數據進行可視化標注,展示語義標注后的法律數據。本發明提供的相關聯的多任務學習比單任務學習具有更好的泛化效果,且不需要依賴算法工程師完成選擇預訓練模型以及調整模型的參數,直接提高數據標注工作的效率和降低數據標注相關人員的學習成本。
技術領域
本發明涉及數據標記領域,尤其涉及一種對法律數據完成多任務語義標注的可視化方法和裝置。
背景技術
隨著國家法治建設的完善,積累了大量的案例、法規、機構、律師、律所、法官及法院信息等法律數據。人工智能在法律活動中具有廣闊的應用前景,加速推動國家的法律建設。法律人工智能的落地不僅取決于法律數據的數量,更依賴于法律數據的質量。大規模、高質量的語義標注數據直接影響人工智能的學習效果。現有法律數據是以非結構化、半結構化的數據為主,總體沒有高質量的標注數據。而高質量的法律數據不僅需要大量的法律專業人士進行數據標注,還需要在同一份數據上進行多個任務的標注。
目前,對于文本語料的標注方法有很多,但在面向法律數據自動化標注的專利卻很少,同時無法保證標注的質量,無法要求標注者的專業性。現有的數據標記方式存在以下缺點:1.多數采用的是眾包方式,這種方式對標注者的專業背景知識要求較低。因此,這種標注方式是無法保證標注的質量,如:視網膜眼底照片病變情況的標注需要專業的眼科醫生去標注數據,普通標注者基本無法眾包。2.數據標記的技術關注的相對單一的標注任務,預訓練的標注模型也是針對單一任務來反復迭代訓練模型,不考慮標注任務之間的關聯性,預訓練的標注模型的優化也是針對單一任務。對于有關聯性的標記任務,這種分解成相對獨立的子問題忽略了不同任務間的關聯性。3.現有數據標記用到的預訓練模型,是需要專業的機器學習算法工程師完成模型的選擇、訓練和優化,缺乏對于具體的模型的超參數的自定義可配置性。這樣就容易造成維護成本的增加,同時不利于標注人員的自由選擇所需要的模型。4.多數在模型訓練過程中缺乏對模型參數調整和配置的可視化設置,不利于對標注信息的信息統計、模型的訓練進度和結果等的可視化查看和跟進。
發明內容
為了解決目前在面向法律數據自動化標注時無法保證標注的質量,不能在同一份數據上進行多個任務的標注以及可視化顯示出模型訓練進度和結果的問題,本發明提供一種對法律數據完成多任務語義標注的可視化方法和裝置。
第一方面,本發明提供一種對法律數據完成多任務語義標注的可視化方法,該方法包括:
獲取對法律數據進行標注的預設需求;
獲取待標注法律數據導入語料庫;
根據標注的預設需求對待標注法律數據進行任務的可視化配置和服務器硬件的可視化配置;其中,任務配置包括:任務類型的劃分以及模型參數的配置;服務器硬件配置包括:CPU服務器對應的數量和硬件編號配置或GPU服務器對應的數量和硬件編號配置;
根據確定的任務類型、各任務類型對應配置的模型參數和獲取的人工標注中的數據,構建對應的多任務學習模型;
根據多任務學習模型對待標注法律數據進行可視化標注,展示語義標注后的法律數據。
進一步地,根據多任務學習模型對待標注法律數據進行可視化標注,展示語義標注后的法律數據包括:
確定待展示的語義標注后的法律數據和其對應的數據結構;
利用預設的圖標類型對待展示的語義標注后的法律數據和其對應的數據結構進行可視化顯示。
進一步地,根據多任務學習模型對待標注法律數據進行可視化標注,展示語義標注后的法律數據包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京擎盾信息科技有限公司,未經南京擎盾信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010428278.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種近紅外光譜成像裝置用探頭
- 下一篇:一種水質分層采樣系統及控制方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





