[發明專利]一種面向小學藏語文閱讀問題自動生成的服務系統在審
| 申請號: | 202110228195.5 | 申請日: | 2021-03-02 |
| 公開(公告)號: | CN113033180A | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 孫媛;陳安東 | 申請(專利權)人: | 中央民族大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F16/35;G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100081 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 小學 藏語 閱讀 問題 自動 生成 服務 系統 | ||
1.一種面向小學藏語文閱讀問題自動生成的服務系統,其特征在于,包括藏語閱讀語料庫構建模型和藏文閱讀文本問題生成模型;其中,
藏語閱讀語料庫構建模型,通過提取小學藏語文章特征數據,并設計混合的多策略文本篩選模型,構建藏語閱讀語料庫;
藏文閱讀文本問題生成模型,包括編碼端和解碼端,其中,編碼端使用雙向RNN網絡和注意力機制;解碼端使用單向RNN網絡、注意力機制和復制機制。
2.根據權利要求1所述系統,其特征在于,所述藏語閱讀語料庫構建模型具體用于,以小學藏語文教材(1-6年級)為訓練語料,以文章長度、文章體裁、句子數量、平均句長、文章詞匯量、詞匯覆蓋度、冗余度為特征,設計混合的多策略文本篩選模型,并從大規模百科藏文文本中得到適合小學藏語文閱讀的材料。
3.根據權利要求1所述系統,其特征在于,所述篩選模型中集成了邏輯回歸、KNN算法模型以及隨機森林模型,設定7個類別,分別代表適合1-6年級閱讀和不適合小學閱讀,采用絕對多數投票法作為輸出策略。
4.根據權利要求3所述系統,其特征在于,所述邏輯回歸的公式為:
fw,b(x)=σ(∑iwixi+b),
其中,xi表示小學藏語文章的特征,wi表示特征所具有的權重,b表示偏置,最終使用對率函數σ(Sigmoid)得到輸出fw,b(x);
對于訓練的損失函數,選擇了交叉熵損失函數,公式如下:
其中,M為類別的數量;yic是指示變量(0或1),如果該類別和樣本i的類別相同,yic就是1,否則是0;fw,b(x)是邏輯回歸的輸出,表示某特定類別的概率。
5.根據權利要求3所述系統,其特征在于,所述KNN算法模型中,使用歐式距離公式作為不同類別距離的度量公式。公式如下:
其中,和為特征的空間坐標,L(xi,xj)得到的是兩個特征的距離大小。在KNN算法中,先將文章特征歸一化到共同的特征空間中,然后設置參數k,根據距離計算結果L(xi,xj),取距離最近的k個特征點,其中哪個類別出現的最多,這個文章就屬于這個類別。
6.根據權利要求3所述系統,其特征在于,所述隨機森林模型,通過對訓練集的抽樣獲得分布不同的訓練子集;通過不同的訓練子集來訓練不同的決策樹,隨機森林包含訓練得到的所有決策樹;在做分類任務時遵循“少數服從多數原則”,將決策樹分類結果最多的類別作為文章的最終分類結果;
其中,決策樹使用的是ID3算法,每個決策樹用信息增益來獲得最優劃分屬性a,其公式為:
a為類別的屬性,v表示類別的劃分,在文章分類任務中v=7,表示文章分為7個類別;D表示所有的訓練集,Dv表示第v個類別的數據集;Ent(Dv)表示第v個類別的數據集的信息熵;Gain(D,a)為信息增益,如果值越大,說明使用屬性a來劃分的效果越好。
7.根據權利要求3所述系統,其特征在于,所述絕對多數投票法的原則是得票過半數才可以得到輸出,否則取最小數值作為最終輸出,其公式如下:
fi(x)為模型的分類結果,T為分類模型的數量,如果有一半以上的模型給出了相同結果(if Count(fi(x))0.5T),將這個分類作為最終結果;反之,如果沒有半數的模型給出相同分類結果,取最小數值作為最終結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中央民族大學,未經中央民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110228195.5/1.html,轉載請聲明來源鉆瓜專利網。





