[發明專利]一種自適應的基于詞匯文本難度的生詞標注系統及方法有效

申請號：	202110316129.3	申請日：	2021-03-24
公開（公告）號：	CN112949259B	公開（公告）日：	2023-08-08
發明（設計）人：	蔣東辰;蔣翱遠;陳軼陽;康鑫;隗艷萍;孫艷	申請（專利權）人：	北京林業大學;廣州摩翼信息科技有限公司
主分類號：	G06F40/143	分類號：	G06F40/143;G06F40/194
代理公司：	北京科迪生專利代理有限責任公司 11251	代理人：	張乾楨
地址：	100083 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種自適應基于詞匯文本難度生詞標注系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提出一種自適應的基于詞匯文本難度的生詞標注方法及系統，所述方法包括以下步驟：步驟一、進行文本詞匯難度評估，計算詞匯w在包含N個詞語的文本text中出現n次的α概率分位數；步驟二、進行詞表對比，確定文本text中不在詞庫Lex的超綱詞匯，并將這些詞匯按照難度排序后存儲；步驟三、進行生詞標注，計算基于詞匯文本難度詞匯列表的累積詞匯量，并對超過難度要求的生詞進行標注；步驟四、進行文本難度評估，并給出文本難度提示信息。本發明既可以根據學習者所處的學習階段，也可以根據文本的具體用詞情況和學習者的真實水平，自動實現閱讀文本生詞的自動標注。

技術領域

本發明屬于計算機交互及計算機英語學習領域，特別涉及一種基于詞匯文本難度的生詞標注系統及方法。

背景技術

閱讀是學生提升語言能力的主要途徑，生詞是學生閱讀的主要障礙和提升方向。恰當的生詞標注將能夠有效降低學生學習的難度，增加學生的詞匯積累。為此，本發明將針對英文閱讀文本生詞標注提供一套系統及方法。

當前，針對學生英語閱讀的詞匯標注要么是有英語教師及編輯手動完成，要么是通過設置詞庫由計算機自動完成。手工標注的準確性極大的依賴于標注者對不同水平學生能力的把握，存在個體差異，容易出現錯標漏標等問題；同時，手工標注人力成本大，不適于大量的英語閱讀材料的處理標注。基于計算機詞庫的生詞標注采用一刀切的標注方法。這類方法效率高，但缺乏彈性。一些人名、地名和一些偶然出現的生詞并不會影響閱讀理解，但卻也會被標注。這將降低閱讀者的閱讀體驗，增加分心的關注點。

發明內容

為了解決上述技術問題，本發明提出一種自適應的基于詞匯文本難度的生詞標注系統及方法，既可以根據學習者所處的學習階段，也可以根據文本的具體用詞情況和學習者的真實水平，自動實現閱讀文本生詞的自動標注。

本發明的技術方案為：一種自適應的基于詞匯文本難度的生詞標注方法，其特征在于，包括以下步驟：

步驟一、進行文本詞匯難度評估，計算詞匯w在包含N個詞語的文本text中出現n次的α概率分位數；

步驟二、進行詞表對比，確定文本text中不在詞庫Lex的超綱詞匯，并將這些詞匯按照難度排序后存儲；

步驟三、進行生詞標注，計算基于詞匯文本難度詞匯列表的累積詞匯量，并對超過難度要求的生詞進行標注；

步驟四、進行文本難度評估，并給出文本難度提示信息。

進一步的，所述步驟一、進行文本詞匯難度評估，計算詞匯w在包含N個詞語的文本text中出現n次的α概率分位數；具體包括：

步驟1.1將文本text中的所有單詞變形轉化為原型形式，單詞變形包括：首字母大寫、動詞各種變形、名詞復數變形、形容詞/副詞比較級和最高級變形，假設文本中所有單詞的原型構成的集合為WordSet，轉步驟1.2；

步驟1.2統計文本text中各單詞原型出現的次數，使用Count(w)表示單詞w文本text中出現的次數，用T記錄文本中的總詞數，轉步驟1.3；

步驟1.3對WordSet中的每一個單詞w，利用公式textDif(w,text)＝α(w，n)I(w)計算單詞w在文本text中的難度，其中n＝Count(w)，轉步驟1.4；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。