[發明專利]一種基于機器學習的中文閱讀難度分級方法及系統在審
| 申請號: | 201710557154.4 | 申請日: | 2017-07-10 |
| 公開(公告)號: | CN107506346A | 公開(公告)日: | 2017-12-22 |
| 發明(設計)人: | 任易;趙梓淳 | 申請(專利權)人: | 北京享閱教育科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62;G06N99/00 |
| 代理公司: | 北京卓唐知識產權代理有限公司11541 | 代理人: | 唐海力,韓來兵 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 中文 閱讀 難度 分級 方法 系統 | ||
技術領域
本發明涉及人工智能領域,具體涉及一種基于機器學習的中文閱讀難度分級方法及系統。
背景技術
人工智能技術是指了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器。人工智能往往通過自然語言處理與機器學習等技術與語言學研究成果的結合,實現文本閱讀難度分級。
閱讀難度分級本質上可以概括為對文本可讀性的度量問題。定義上,可讀性(readability)指文本易于閱讀和理解的程度。通常,可讀性高的文本內容符合讀者的背景知識,并且會適當地復述上文內容,并提供相關知識;此外,高可讀性文本行文通常使用常見詞匯和結構簡單的句法結構,同時避免歧義以減少讀者的認知負擔。當讀者閱讀可讀性較高的文章時,會有更好的理解和學習效果,因而給讀者提供合適的高可讀性文本,就可能改善讀者的閱讀理解表現。
現有技術中,閱讀難度分級技術主要以美國“藍思(Lexile)分級”和“AZ分級”為代表。這些技術的閱讀難度分級構建體系通常依賴于傳統可讀性研究的基本假設,也即以詞長(word length)和詞頻(word frequency)作為語義的指標,以句長作為語法的指標,而詞長和句子較長的文章難度通常較高。基于這些假設,現有技術通常通過設計依賴于這些指標的可讀性計算公式來實現對文本可讀性的度量。
現有技術的不足之處在于,沒有考慮語言隨時代變化的特征,進而無法更新漢字難度分級表和詞頻表;僅通過句長或詞長作為復雜度的指標,過于直覺而不能精確地反映其結構性質;以少數淺層次局部的語言特征不足以反映真實的閱讀理解過程;閱讀難度分級技術僅適用于英文,而英文本身與中文在語言特點上存在著極大的不同。
發明內容
本發明的目的是提供一種基于機器學習的中文閱讀難度分級方法及系統,以解決上述不足之處。
為了實現上述目的,本發明提供如下技術方案:
本發明提供了一種基于機器學習的中文閱讀難度分級方法,包括以下步驟:
獲取訓練文本和待檢測文本;
根據所述訓練文本的語言層面構建衡量閱讀難度層次的特征集;所述特征集中至少包括:字詞、語義、句子、篇章以及主題特征;
將所述特征集輸入SVM模型進行訓練,并通過所述訓練結果對所述待檢測文本進行預測,得到閱讀難度等級。
上述基于機器學習的中文閱讀難度分級方法,訓練文本的獲取包括以下步驟:
根據多個閱讀難度層次和更新的中文文本構建語料庫;
從所述語料庫中調取相應的文本作為所述訓練文本。
上述基于機器學習的中文閱讀難度分級方法,字詞特征的構建包括以下步驟:
通過預設的中文字詞難度分級表對所述訓練樣本進行分析,得到字詞的復雜度特征;
對所述訓練樣本進行詞頻統計,并通過預設的詞頻表對統計結果進行分析,得到字詞的詞頻特征。
上述基于機器學習的中文閱讀難度分級方法,語義特征的構建包括以下步驟:
對所述訓練樣本中的字詞按照屬性進行分類,得到多個類別的屬性詞;
在同一類別中對所述屬性詞進行語義相同字詞數目的統計,并對統計結果進行分析,得到所述語義特征。
上述基于機器學習的中文閱讀難度分級方法,句子特征的構建包括以下步驟:
根據所述訓練樣本進行句子復雜度的分析,得到句子的復雜度特征;
通過依存句法樹對所述訓練樣本進行句子中詞語的依存關系和語法結構的分析,得到句子的語法特征;
對所述訓練樣本中句子的長度進行分析,得到句子的長度特征。
上述基于機器學習的中文閱讀難度分級方法,篇章特征的構建包括以下步驟:
搜尋所述訓練樣本中的實義詞;
對所述實義詞的出現頻率進行統計,并根據統計結果得到篇章間的銜接特征。
上述基于機器學習的中文閱讀難度分級方法,主題特征的構建包括以下步驟:
對訓練樣本中的標注樣本進行挖掘得到主題模型;
通過主題模型對所述訓練樣本的目標樣本進行分類,得到主題特征。
上述基于機器學習的中文閱讀難度分級方法,進行訓練包括以下步驟:
根據所述特征集抽取所述訓練文本的對應特征;
根據所述標注樣本中交叉標注的特征抽取所述訓練文本中的對應特征;
通過上述對應特征進行閱讀難度等級的訓練,得到所述訓練結果。
上述基于機器學習的中文閱讀難度分級方法,進行預測包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京享閱教育科技有限公司,未經北京享閱教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710557154.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息編輯的處理方法及裝置
- 下一篇:一種智能獲取代跑聊天記錄的方法及裝置





