[發明專利]一種自適應的基于詞匯文本難度的生詞標注系統及方法有效
| 申請號: | 202110316129.3 | 申請日: | 2021-03-24 |
| 公開(公告)號: | CN112949259B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 蔣東辰;蔣翱遠;陳軼陽;康鑫;隗艷萍;孫艷 | 申請(專利權)人: | 北京林業大學;廣州摩翼信息科技有限公司 |
| 主分類號: | G06F40/143 | 分類號: | G06F40/143;G06F40/194 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 張乾楨 |
| 地址: | 100083 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自適應 基于 詞匯 文本 難度 生詞 標注 系統 方法 | ||
1.一種自適應的基于詞匯文本難度的生詞標注方法,其特征在于,包括以下步驟:
步驟一、進行文本詞匯難度評估,計算詞匯w在包含N個詞語的文本text中出現n次的α概率分位數;所述步驟一、進行文本詞匯難度評估,計算詞匯w在包含N個詞語的文本text中出現n次的α概率分位數;具體包括:
步驟1.1將文本text中的所有單詞變形轉化為原型形式,單詞變形包括:首字母大寫、動詞各種變形、名詞復數變形、形容詞/副詞比較級和最高級變形,文本中所有單詞的原型構成的集合為WordSet,轉步驟1.2;
步驟1.2統計文本text中各單詞原型出現的次數,使用Count(w)表示單詞w文本text中出現的次數,用T記錄文本中的總詞數,轉步驟1.3;
步驟1.3對WordSet中的每一個單詞w,利用公式textDif(w,text)=α(w,n)I(w)計算單詞w在文本text中的難度,其中n=Count(w),轉步驟1.4;
步驟1.4將WordSet中的所有單詞按照其在文本text中的難度排序,將在當前文本中最難的詞匯設為w1,次難詞匯設為w2,其在文本中出現的次數分別為n1,n2,...,以此類推;將這些單詞及文本出現次數按降序插入鍵值對序列sortedWordMapwi,ni;其中,鍵wi表示文本中難度排名第i位的單詞,值ni存儲難度排名第i位的單詞在文本中出現的次數;
所述步驟1.3中,利用公式textDif(w,text)=α(w,n)I(w)計算w在文本text中的難度,具體包括:
待做詞匯標注的英文文本為text,計算文本text中各個單詞w的文本難度textDif(w,text);然后,對文本中各單詞按照難度由大到小的順序排序并統計其出現次數;其中,在當前文本中最難的詞匯為w1,次難詞匯為w2,其在文本中出現的次數分別為n1,n2,...,以此類推;
文本text包含N個單詞,單詞w在文本text中出現k次的概率由二項分布近似刻畫,即:
其中,為在N個元素中選擇k個元素的組合數,N為文本text的總詞匯數,Prop(w)為詞語w在語料庫中整體的出現概率;那么,詞匯w在包含N個詞語的文本text中出現n次的α概率分位數為:在text中w出現的條件下,w出現次數小于等于n次的概率累加,即:
而單詞w在文本text中的難度textDif(w,text)由其在語料庫中的信息量I(w)=-lg(Prop(w))和w在文本text中出現n次的α概率分位數α(w,n)的乘積構成,即:
textDif(w,text)=α(w,n)I(w)??????(3)
步驟二、進行詞表對比,確定文本text中不在詞庫Lex的超綱詞匯,并將這些詞匯按照難度排序后存儲;
步驟三、進行生詞標注,計算基于詞匯文本難度詞匯列表的累積詞匯量,并對超過難度要求的生詞進行標注;具體包括:
對前γ百分位的生詞,利用詞典進行詞義標注或標注提示;具體步驟如下:
步驟3.1令當前累計詞量TC=0、處理詞位I=0,轉步驟3.2;
步驟3.2令I=I+1,對生詞序列UnknownList中的生詞UI,計算累計詞量TC=TC+Count(UI);其中,Count(UI)表示單詞UI在文本text中出現的次數,如果TC/N=γ,將UI加入需標注生詞集合WordToLabel,轉步驟3.2;否則,轉步驟3.3;
步驟3.3遍歷待標注生詞集合WordToLabel,對其任意生詞U,利用詞典檢索其對應的詞義,用M記錄,并將結果U,M存儲到詞標注序列LabelMap中;
步驟3.4遍歷詞標注序列LabelMap,對任意生詞及其對應的詞義U,M,在文本中找到生詞U第一次出現的位置,按“U(M)”的格式,對詞義進行標注;
步驟四、進行文本難度評估,并給出文本難度提示信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京林業大學;廣州摩翼信息科技有限公司,未經北京林業大學;廣州摩翼信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110316129.3/1.html,轉載請聲明來源鉆瓜專利網。





