[發明專利]一種自適應的基于詞匯文本難度的生詞標注系統及方法有效
| 申請號: | 202110316129.3 | 申請日: | 2021-03-24 |
| 公開(公告)號: | CN112949259B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 蔣東辰;蔣翱遠;陳軼陽;康鑫;隗艷萍;孫艷 | 申請(專利權)人: | 北京林業大學;廣州摩翼信息科技有限公司 |
| 主分類號: | G06F40/143 | 分類號: | G06F40/143;G06F40/194 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 張乾楨 |
| 地址: | 100083 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自適應 基于 詞匯 文本 難度 生詞 標注 系統 方法 | ||
本發明提出一種自適應的基于詞匯文本難度的生詞標注方法及系統,所述方法包括以下步驟:步驟一、進行文本詞匯難度評估,計算詞匯w在包含N個詞語的文本text中出現n次的α概率分位數;步驟二、進行詞表對比,確定文本text中不在詞庫Lex的超綱詞匯,并將這些詞匯按照難度排序后存儲;步驟三、進行生詞標注,計算基于詞匯文本難度詞匯列表的累積詞匯量,并對超過難度要求的生詞進行標注;步驟四、進行文本難度評估,并給出文本難度提示信息。本發明既可以根據學習者所處的學習階段,也可以根據文本的具體用詞情況和學習者的真實水平,自動實現閱讀文本生詞的自動標注。
技術領域
本發明屬于計算機交互及計算機英語學習領域,特別涉及一種基于詞匯文本難度的生詞標注系統及方法。
背景技術
閱讀是學生提升語言能力的主要途徑,生詞是學生閱讀的主要障礙和提升方向。恰當的生詞標注將能夠有效降低學生學習的難度,增加學生的詞匯積累。為此,本發明將針對英文閱讀文本生詞標注提供一套系統及方法。
當前,針對學生英語閱讀的詞匯標注要么是有英語教師及編輯手動完成,要么是通過設置詞庫由計算機自動完成。手工標注的準確性極大的依賴于標注者對不同水平學生能力的把握,存在個體差異,容易出現錯標漏標等問題;同時,手工標注人力成本大,不適于大量的英語閱讀材料的處理標注。基于計算機詞庫的生詞標注采用一刀切的標注方法。這類方法效率高,但缺乏彈性。一些人名、地名和一些偶然出現的生詞并不會影響閱讀理解,但卻也會被標注。這將降低閱讀者的閱讀體驗,增加分心的關注點。
發明內容
為了解決上述技術問題,本發明提出一種自適應的基于詞匯文本難度的生詞標注系統及方法,既可以根據學習者所處的學習階段,也可以根據文本的具體用詞情況和學習者的真實水平,自動實現閱讀文本生詞的自動標注。
本發明的技術方案為:一種自適應的基于詞匯文本難度的生詞標注方法,其特征在于,包括以下步驟:
步驟一、進行文本詞匯難度評估,計算詞匯w在包含N個詞語的文本text中出現n次的α概率分位數;
步驟二、進行詞表對比,確定文本text中不在詞庫Lex的超綱詞匯,并將這些詞匯按照難度排序后存儲;
步驟三、進行生詞標注,計算基于詞匯文本難度詞匯列表的累積詞匯量,并對超過難度要求的生詞進行標注;
步驟四、進行文本難度評估,并給出文本難度提示信息。
進一步的,所述步驟一、進行文本詞匯難度評估,計算詞匯w在包含N個詞語的文本text中出現n次的α概率分位數;具體包括:
步驟1.1將文本text中的所有單詞變形轉化為原型形式,單詞變形包括:首字母大寫、動詞各種變形、名詞復數變形、形容詞/副詞比較級和最高級變形,假設文本中所有單詞的原型構成的集合為WordSet,轉步驟1.2;
步驟1.2統計文本text中各單詞原型出現的次數,使用Count(w)表示單詞w文本text中出現的次數,用T記錄文本中的總詞數,轉步驟1.3;
步驟1.3對WordSet中的每一個單詞w,利用公式textDif(w,text)=α(w,n)I(w)計算單詞w在文本text中的難度,其中n=Count(w),轉步驟1.4;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京林業大學;廣州摩翼信息科技有限公司,未經北京林業大學;廣州摩翼信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110316129.3/2.html,轉載請聲明來源鉆瓜專利網。





