[發(fā)明專利]一種用于簡體中文可讀性測度的線性模型方法在審
| 申請?zhí)枺?/td> | 201711335437.0 | 申請日: | 2017-12-14 |
| 公開(公告)號: | CN107977449A | 公開(公告)日: | 2018-05-01 |
| 發(fā)明(設計)人: | 丘心穎;鄧可斌 | 申請(專利權(quán))人: | 廣東外語外貿(mào)大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 廣州市華學知識產(chǎn)權(quán)代理有限公司44245 | 代理人: | 陳燕嫻 |
| 地址: | 510006 廣東省廣州市番禺*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 簡體中文 可讀性 測度 線性 模型 方法 | ||
1.一種用于簡體中文可讀性測度的線性模型方法,其特征在于,所述的方法包括下列步驟:
S1、構(gòu)建簡體中文文本及其可讀性級別語料庫;
S2、對語料庫文本進行預處理,包括分詞、分句、詞性標注、命名實體識別、成分句法分析、依存句法分析、子句標注、和/或筆畫統(tǒng)計;
S3、提取并計算文本語言特征;
S4、依據(jù)語言特征和回歸算法構(gòu)建最佳特征組合;
S5、構(gòu)建可讀性測度的線性回歸模型。
2.根據(jù)權(quán)利要求1所述的一種用于簡體中文可讀性測度的線性模型方法,其特征在于,所述的文本語言特征的特征類別包括:淺層特征、詞性標注特征、語法特征和/或篇章特征,
其中,所述的淺層特征包括字的復雜度特征、詞的復雜度特征、句子復雜度特征和/或文本長度特征,所述的字的復雜度特征包括:特征1.文檔最常用字的占比、特征2.文檔次常用字的占比、特征3.文檔總常用字的占比、特征4.低筆畫占比、特征5.中筆畫占比、特征6.高筆畫占比和/或特征7.平均筆畫數(shù);所述的詞的復雜度特征包括:特征8.不去重時文檔的詞匯平均字數(shù)、特征9.去重時文檔的詞匯平均字數(shù)、特征10.文檔的兩字詞語的個數(shù)、特征11.文檔的兩字詞語在總詞數(shù)的占比、特征12.文檔的三字詞語的個數(shù)、特征13.文檔的三字詞語在總詞數(shù)的占比、特征14.文檔的四字詞語的個數(shù)、特征15.文檔的四字詞語在總詞數(shù)的占比、特征16.文檔的四字以上詞語的個數(shù)和/或特征17.文檔的四字以上詞語在總詞數(shù)的占比;所述的句子復雜度特征包括特征18.單句的平均多字詞語的個數(shù)、特征19.單句的平均詞數(shù)、特征20.僅針對漢字的單句的平均字數(shù)和/或特征21.針對所有字符的句子的平均字數(shù);所述的文本長度特征包括特征包括:22.文檔的漢字總字數(shù)和/或特征23.針對所有字符的文檔的總字符數(shù);
其中,所述的詞性標注特征包括形容詞特征、功能詞特征、動詞特征、名詞特征、實詞特征、習語/成語特征和/或副詞特征,
所述的形容詞特征包括特征24.文檔的形容詞在總詞數(shù)的占比、特征25.文檔的唯一的形容詞在去重后總詞數(shù)的占比、特征26.文檔的唯一形容詞個數(shù)、特征27.單句平均形容詞個數(shù)和/或特征28.單句平均唯一形容詞個數(shù);
所述的功能詞特征包括特征29.文檔的功能詞在總詞數(shù)的占比、特征30.文檔的唯一的功能詞在去重后總詞數(shù)的占比、特征31.文檔的唯一功能詞個數(shù)、特征32.文檔的單句平均功能詞個數(shù)和/或特征33、單句平均唯一功能詞個數(shù);
所述的動詞特征包括特征34.文檔的動詞在總詞數(shù)的占比、特征35.文檔的唯一動詞個數(shù)、特征36.文檔的唯一動詞在去重后總詞數(shù)的占比、特征37.單句平均動詞個數(shù)和/或特征38.單句平均唯一動詞個數(shù);
所述的名詞特征包括特征39.文檔的普通名詞占比、特征40.文檔的唯一普通名詞個數(shù)、特征41.文檔的唯一普通名詞在去重后總詞數(shù)的占比、特征42.單句平均普通名詞個數(shù)、特征43.單句平均唯一普通名詞個數(shù)、特征44.文檔的所有名詞在總詞數(shù)的占比、特征45.文檔的唯一所有名詞個數(shù)、特征46.文檔的唯一所有名詞在去重后總詞數(shù)的占比、特征47.單句平均所有名詞個數(shù)和/或特征48.單句平均唯一所有名詞個數(shù);
所述的實詞特征包括特征49.文檔的實詞在總詞數(shù)的占比、特征50.文檔的唯一實詞個數(shù)、特征51.文檔的唯一實詞在去重后總詞數(shù)的占比、特征52.單句平均實詞個數(shù)和/或特征53.單句平均唯一實詞個數(shù);
所述的習語/成語特征包括特征54.文檔的習語在總詞數(shù)的占比、特征55.文檔的唯一習語個數(shù)、特征56.文檔的唯一習語在去重后總詞數(shù)的占比、特征57.單句平均習語個數(shù)和/或特征58.單句平均唯一習語個數(shù);
所述的副詞特征包括特征59.文檔的副詞在總詞數(shù)的占比、特征60.文檔的唯一副詞個數(shù)、特征61.文檔的唯一副詞在去重后總詞數(shù)的占比、特征62.單句平均副詞個數(shù)和/或特征63.單句平均唯一副詞個數(shù);
所述的語法特征包括詞組特征、子句特征和/或完整句特征,
其中,所述的詞組特征包括特征64.單句平均名詞短語個數(shù)、特征65.單句平均動詞短語個數(shù)、特征66.文檔的名詞短語總數(shù)、特征67.文檔的動詞短語總數(shù)、特征68.文檔的介詞短語總數(shù)、特征69.文檔的名詞短語的平均長度、特征70.文檔的動詞短語的平均長度和/或特征71.文檔的介詞短語的平均長度;
所述的子句特征包括特征72.文檔的含有子句的句子的個數(shù)、特征73.文檔的不含有子句的句子占句子總數(shù)的占比和/或特征74.文檔的句子的平均子句個數(shù);
所述的完整句特征包括特征75.文檔完整句句子數(shù)和/或特征76.文檔完整句平均句法樹高度;
所述的篇章特征包括實體密度特征和/或篇章連貫性特征,
其中,所述的實體密度特征包括特征77.文檔的實體詞總數(shù)、特征78.文檔的唯一實體詞總數(shù)、特征79.文檔的實體詞在文檔總詞數(shù)的占比、特征80.文檔的唯一實體詞在文檔總單詞數(shù)量的占比、特征81.文檔的單句平均實體詞數(shù)量、特征82.文檔的單句平均唯一實體詞數(shù)量、特征83.文檔的命名實體詞在文檔總詞數(shù)的占比、特征84.文檔的單句平均命名實體詞數(shù)量、特征85.文檔的命名實體詞在文檔總實體詞的占比、特征86.文檔的普通名詞在總詞數(shù)的占比、特征87.文檔的非命名實體名詞在總詞數(shù)的占比、特征88.文檔的單句平均普通名詞數(shù)量、特征89.文檔的單句非命名實體詞的數(shù)量和/或特征90.文檔的單句平均非實體詞數(shù)量;
其中,所述的篇章連貫性特征包括特征91.文檔的連詞在總詞數(shù)的占比、特征92.文檔的唯一連詞個數(shù)、特征93.文檔的唯一連詞在去重后總詞數(shù)的占比、特征94.單句平均連詞個數(shù)、特征95.單句平均唯一連詞個數(shù)、特征96.文檔的代詞在總詞數(shù)的占比、特征97.文檔的唯一代詞個數(shù)、特征98.文檔的唯一代詞在去重后總詞數(shù)的占比、特征99.單句平均代詞個數(shù)和/或特征100.單句平均唯一代詞個數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東外語外貿(mào)大學,未經(jīng)廣東外語外貿(mào)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711335437.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





