[發明專利]一種基于機器學習的中文閱讀難度分級方法及系統在審
| 申請號: | 201710557154.4 | 申請日: | 2017-07-10 |
| 公開(公告)號: | CN107506346A | 公開(公告)日: | 2017-12-22 |
| 發明(設計)人: | 任易;趙梓淳 | 申請(專利權)人: | 北京享閱教育科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62;G06N99/00 |
| 代理公司: | 北京卓唐知識產權代理有限公司11541 | 代理人: | 唐海力,韓來兵 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 中文 閱讀 難度 分級 方法 系統 | ||
1.一種基于機器學習的中文閱讀難度分級方法,其特征在于,包括以下步驟:
獲取訓練文本和待檢測文本;
根據所述訓練文本的語言層面構建衡量閱讀難度層次的特征集;所述特征集中至少包括:字詞、語義、句子、篇章以及主題特征;
將所述特征集輸入SVM模型進行訓練,并通過所述訓練結果對所述待檢測文本進行預測,得到閱讀難度等級。
2.根據權利要求1所述的基于機器學習的中文閱讀難度分級方法,其特征在于,訓練文本的獲取包括以下步驟:
根據多個閱讀難度層次和更新的中文文本構建語料庫;
從所述語料庫中調取相應的文本作為所述訓練文本。
3.根據權利要求1所述的基于機器學習的中文閱讀難度分級方法,其特征在于,字詞特征的構建包括以下步驟:
通過預設的中文字詞難度分級表對所述訓練樣本進行分析,得到字詞的復雜度特征;
對所述訓練樣本進行詞頻統計,并通過預設的詞頻表對統計結果進行分析,得到字詞的詞頻特征。
4.根據權利要求1所述的基于機器學習的中文閱讀難度分級方法,其特征在于,語義特征的構建包括以下步驟:
對所述訓練樣本中的字詞按照屬性進行分類,得到多個類別的屬性詞;
在同一類別中對所述屬性詞進行語義相同字詞數目的統計,并對統計結果進行分析,得到所述語義特征。
5.根據權利要求1所述的基于機器學習的中文閱讀難度分級方法,其特征在于,句子特征的構建包括以下步驟:
根據所述訓練樣本進行句子復雜度的分析,得到句子的復雜度特征;
通過依存句法樹對所述訓練樣本進行句子中詞語的依存關系和語法結構的分析,得到句子的語法特征;
對所述訓練樣本中句子的長度進行分析,得到句子的長度特征。
6.根據權利要求1所述的基于機器學習的中文閱讀難度分級方法,其特征在于,篇章特征的構建包括以下步驟:
搜尋所述訓練樣本中的實義詞;
對所述實義詞的出現頻率進行統計,并根據統計結果得到篇章間的銜接特征。
7.根據權利要求1所述的基于機器學習的中文閱讀難度分級方法,其特征在于,主題特征的構建包括以下步驟:
對訓練樣本中的標注樣本進行挖掘得到主題模型;
通過主題模型對所述訓練樣本的目標樣本進行分類,得到主題特征。
8.根據權利要求7所述的基于機器學習的中文閱讀難度分級方法,其特征在于,進行訓練包括以下步驟:
根據所述特征集抽取所述訓練文本的對應特征;
根據所述標注樣本中交叉標注的特征抽取所述訓練文本中的對應特征;
通過上述對應特征進行閱讀難度等級的訓練,得到所述訓練結果。
9.根據權利要求1所述的基于機器學習的中文閱讀難度分級方法,其特征在于,進行預測包括以下步驟:
通過SRM統計出所述待檢測文本的小樣本后,求得超平面將文本分類;
根據所述文本分類結果預測得到所述閱讀難度等級。
10.一種基于機器學習的中文閱讀難度分級系統,其特征在于,包括:
文本獲取單元,獲取訓練文本和待檢測文本;
構建單元,根據所述訓練文本的語言層面構建衡量閱讀難度層次的特征集;所述特征集中至少包括:字詞、語義、句子、篇章以及主題特征;
訓練預測單元,將所述特征集輸入SVM模型進行訓練,并通過所述訓練結果對所述待檢測文本進行預測,得到閱讀難度等級。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京享閱教育科技有限公司,未經北京享閱教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710557154.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息編輯的處理方法及裝置
- 下一篇:一種智能獲取代跑聊天記錄的方法及裝置





