[發明專利]中文文本可讀性計量系統及其方法在審
| 申請號: | 201210030884.6 | 申請日: | 2012-02-06 |
| 公開(公告)號: | CN103207854A | 公開(公告)日: | 2013-07-17 |
| 發明(設計)人: | 宋曜廷;陳茹玲 | 申請(專利權)人: | 宋曜廷 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 隆天國際知識產權代理有限公司 72003 | 代理人: | 趙根喜;馮志云 |
| 地址: | 中國臺*** | 國省代碼: | 中國臺灣;71 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 文本 可讀性 計量 系統 及其 方法 | ||
技術領域
本發明涉及一種中文文本分析系統及其方法,尤其涉及一種提供中文文本可讀性分析與評價的可讀性計量系統及其方法。
背景技術
近年來隨著學習漢語的人數提高,使得漢語學習事業蓬勃發展,加上網絡信息的快速成長,學習范圍并不局限于學校老師,學習者也可通過網絡數據、書本、文章等自我學習,無論如何,良好教材與讀本是學好漢語的必要條件。
對于教學者與學習者而言,良好的教材與讀本有助于提升教學效能,也可提升學習成效,因而其可讀性高低十分重要??勺x性(readability)是指閱讀材料能夠被讀者理解的程度(Dale?&?Chall,1949;Klare,1963,2000;McLaughlin,1969),可讀性較高的文本具備某些特征,例如內文中有較容易閱讀的字詞匯(常見字、復雜度低、非技術性、意義清楚);句子中包含較少代名詞與復合詞或結構簡單;內容符合讀者的先備知識,呈現方式適當地重述先前段落;提供相關知識;以及降低無關的干擾信息等(Klare,1963,2000;van?den?Broek?&?Kremer,2000)。由上可知,可讀性高的文本屬于容易被讀者理解的文章,例如采用具體且生活化的詞匯,或選擇使用較短、復雜度較低的句子,以減少讀者的認知負荷。因此,若能針對文本可讀性的進行判斷與分析,即可提供讀者適當的學習教材。
歐美研究學者已建置有成熟的線上文本分析系統(Coh-Metrix),可客觀且量化分析文本特性,但其應用于拼音文字,然而中文與拼音文字為兩種迥異的文字系統,因而無法直接適用,此外,對于中文文本分析研究上,先前雖有國內學者發展一系列中文適讀性公式,但年代已久已不符現代文本使用。綜上所述,目前中文可讀性研究中仍有下列限制有待突破:(1)亟待發展符合中文特性與現代語言脈絡的可讀性指針;(2)因過去可讀性公式僅選擇少數、表淺的語言特征,不夠周延,亟待建立包含更多且較為完整的可讀性指針;(3)亟待發展具有效度的可讀性數學模型。
因此,如何能提供學習者或教育者具有更佳效度的可讀性數學模型來進行文本可讀性分析,此仍屬本領域的技術人員所應努力的目標。
發明內容
鑒于上述現有技術的缺點,本發明的目的在于提出一種中文文本可讀性計量系統及其方法,通過斷詞(segment)、可讀性指針分析并建立可讀性數學模型,以產生可讀性分析結果。
為達成前述目的及其它目的,本發明提供一種中文文本可讀性計量系統,應用于數據處理設備中,并通過該數據處理設備予以執行,該中文文本可讀性計量系統包括:斷詞模塊、可讀性指針分析模塊及智能型計算模塊。斷詞模塊應用于文本數據的斷詞處理,用以將該文本數據與一語料庫進行比對以借由該文本數據產生多個斷詞,且產生對應所述多個斷詞的詞性設定;可讀性指針分析模塊依據該文本數據中預定的可讀性指針,對所述多個斷詞及所述多個詞性設定進行分析,以通過計算得到所述多個可讀性指針的指針數值;而智能型計算模塊包括一預定的可讀性數學模型,用以將所述多個指針數值輸入該可讀性數學模型以產生分析結果。
于一實施例中,該詞性設定的內容包括該斷詞的詞性標記、以及該斷詞模塊對應所述多個斷詞所產生的斷詞信息與詞性標記信息;而該可讀性指針由詞匯特征、語意特征、語法特征或篇章凝聚性特征的至少一個所組成。
于另一實施例中,該可讀性數學模型為一般線性或非線性。此外,該非線性的可讀性數學模型由支持向量機(support?vector?machine,SVM)或如人工神經網絡(artificial?neural?network,ANN)等多種人工智能分類器整合而成。
另外,本發明還提出一種中文文本可讀性計量分析方法,其應用于數據處理裝置中,并通過該數據處理裝置予以執行,該中文文本可讀性計量分析方法包括以下步驟:1)將文本數據與一語料庫進行比對以借由該文本數據得到多個斷詞;2)對所述多個斷詞進行詞性設定;3)將所述多個斷詞付與詞性設定,并對應至預定的可讀性指針,以通過計算產生該文本數據中所述多個可讀性指針的指針數值;以及4)利用一可讀性數學模型,整合所述多個指針數值得到該文本數據可讀性的分析結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于宋曜廷,未經宋曜廷許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210030884.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于網絡的平臺系統
- 下一篇:定影裝置以及圖像形成裝置





