[發明專利]基于Django的文本標注平臺有效
| 申請號: | 202011138791.6 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112199084B | 公開(公告)日: | 2023-07-18 |
| 發明(設計)人: | 孫科;汪兆川;任文波 | 申請(專利權)人: | 北京計算機技術及應用研究所 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/35;G06F21/62;G06F18/241;G06F18/214;G06N3/0442;G06N3/08 |
| 代理公司: | 中國兵器工業集團公司專利中心 11011 | 代理人: | 張然 |
| 地址: | 100854*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 django 文本 標注 平臺 | ||
1.一種基于Django的文本標注平臺,其特征在于,包括:
算法模塊、項目模塊、用戶模塊以及標簽模塊;
用戶模塊用于存儲用戶信息以及進行登錄驗證;
標簽模塊對項目的標簽進行增、刪以及改,不同項目設置不同標簽,同一項目標簽不可重復,并用于根據標簽類型進行標注;
算法模塊根據打包算法程序,通過項目模塊在項目中選擇算法,進行預標注模型訓練,項目模塊將項目已標注數據傳入算法模塊,訓練出預標注模型后,通過項目模塊進行預標注,將項目中未標注數據傳入預標注模型,算法模塊將標注后的數據存入數據庫,項目模塊在對項目中所有未打標文件進行預標注,預標注完成后在系統界面上查看預標注后的數據;
其中,
預標注算法使用的是深度學習中的BILSTM-CRF模型算法;
深度學習中的BILSTM-CRF模型算法包括:
BILSTM-CRF模型的第一層是look-up層,利用預訓練或隨機初始化的embedding矩陣將句子中的每個字xi由one-hot向量映射為低維稠密的字向量xi∈Rd,d是embedding矩陣的維度;
BILSTM-CRF模型的第二層是雙向LSTM層,將一個句子的各個字的char?embedding序列(x1,x2,…,xn)作為雙向LSTM各個時間步的輸入,再將正向LSTM輸出的隱狀態序列與反向LSTM的在各個位置輸出的隱狀態進行按位置拼接得到完整的隱狀態序列;
(h1,h2,…,hn)∈Rx×m;
BILSTM-CRF模型的第三層是CRF層,進行句子級的序列標注;CRF層的參數是一個(k+2)×(k+2)的矩陣A,Aij表示的是從第i個標簽到第j個標簽的轉移得分,進而為在一個位置進行標注的時候利用此前已經標注過的標簽,如果記一個長度等于句子長度的標簽序列y=(y1,y2,…,yn),那么模型對句子x的標簽等于y的打分為:
整個序列的打分等于各個位置的打分之和,而每個位置的打分由兩部分得到,一部分是由LSTM輸出的pi決定,另一部分則由CRF的轉移矩陣A決定,利用Softmax得到歸一化后的概率:
BILSTM-CRF模型訓練時通過最大化對數似然函數,給出了對一個訓練樣本(x,yx)的對數似然:
BILSTM-CRF模型在預測過程時使用動態規劃的Vitebi算法來求解最優路徑:
y*=argmaxscore(x,y′)。
2.如權利要求1所述的基于Django的文本標注平臺,其特征在于,登錄注冊模塊,用于用戶注冊、用戶登錄、忘記密碼以及修改密碼以及用戶的訪問權限。
3.如權利要求1所述的基于Django的文本標注平臺,其特征在于,用戶管理模塊中的權限管理將用戶角色分為系統角色和項目角色兩類;系統角色包括:超級管理員和普通用戶,項目角色包括:項目管理員和普通用戶。
4.如權利要求3所述的基于Django的文本標注平臺,其特征在于,超級管理員權限包括:普通用戶的增刪改查,項目管理指定,項目的增刪改查,算法的增刪改查,監控各項目標注進度,對項目中的文書進行上傳、下載以及刪除,對項目標簽進行增刪改查,查看所有項目的標注數據。
5.如權利要求3所述的基于Django的文本標注平臺,其特征在于,普通用戶權限包括:普通用戶對自身的信息進行增刪改查。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京計算機技術及應用研究所,未經北京計算機技術及應用研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011138791.6/1.html,轉載請聲明來源鉆瓜專利網。





