[發明專利]漢語作文自動測試方法及系統無效

申請號：	201110255852.1	申請日：	2011-08-31
公開（公告）號：	CN102279844A	公開（公告）日：	2011-12-14
發明（設計）人：	徐波;彭星源;柯登峰;陳振標;王士進	申請（專利權）人：	中國科學院自動化研究所
主分類號：	G06F17/27	分類號：	G06F17/27;G06F17/30
代理公司：	中科專利商標代理有限責任公司 11021	代理人：	周國城
地址：	100190 中***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	漢語作文自動測試方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及電子信息行業人工智能技術領域，尤其涉及一種漢語作文自動測試方法及系統。

背景技術

近年來，隨著學習漢語的不斷流行，漢語水平測試在已經受到了普遍的重視，在漢語水平測試中寫作水平測試是測試語言學習效果的最有效的方法。傳統的漢語作文測試評分基本采用人工對作文進行評閱，得到考生的作文評分，這種方法存在以下缺點：1)人工閱卷評分面臨著巨大的人力和財力投入；2)人工閱卷評分尺度不統一，主觀性強。

計算機應用、人工智能應用、自然語言處理等技術的發展，為實現語言測試自動化提供了技術方面的支持。目前，國外已有較為成熟的英語作文自動測試系統，其基本的思路無外乎通過各種自然語言技術提取文本特征，用人工評分以及高效的機器學習與人工智能方法，對特征與分數之間的關系進行學習，通過所得的特征與評分的關系進行自動的作文評分。而國內，針對漢語的作文測試系統還處于起步的研究狀態中，未能有深入而系統的研究。

在中國少數民族漢語水平等級考試(MHK)的作文測試評分中，評分標準從作文的內容、條理和語言三個方面來評價的。作文的內容評價方面指的是考生作文的寫作內容是否完整、充實，是否與題目要求的中心思想密切聯系；作文的條理評價方面指的是考生作文的寫作條理是否清晰，前后是否緊密連貫，句意轉換是否自然、流暢；作文的語言評價方面指的是考生作文的寫作語言是否自然、流暢，句式是否多樣化，遣詞造句是否恰當。評卷老師通過三個方面的綜合評定來給出最終的作文評分。

在實現本發明的過程中，申請人意識到現有技術存在如下技術缺陷：現有漢語作文自動評分研究的做法目前較為單一，僅僅統計了一些淺表統計特征，和零星的部分語言特征，缺乏對這三方面特征有一個系統的規劃。

發明內容

(一)要解決的技術問題

為解決上述缺陷，本發明提供了一種漢語作文自動測試方法及系統，以克服現有漢語作文自動評分研究的做法目前較為單一，缺乏對這三方面特征有一個系統的規劃的缺陷。

(二)技術方案

根據本發明的一個方面，提供了一種漢語作文自動測試方法。該方法包括：步驟A：輸入作文文本待評語料，對作文文本待評語料進行預處理；步驟B：通過主題內容模型、條理結構模型和語言表達特征模型對預處理后的作文文本待評語料提取主題內容特征、條理結構特征、語言表達特征；步驟C：對所提取的主題內容特征、條理結構特征、語言表達特征用評分方程進行計算，獲得漢語作文的自動評分結果。

優選地，本發明漢語作文自動測試方法中，步驟A之前還包括：步驟A′：輸入作文文本訓練語料，對作文文本訓練語料進行預處理，預處理的步驟與步驟A中預處理的步驟相同；步驟B′：建立主題內容模型、條理結構模型、語言表達特征模型；并通過三個模型對預處理后的作文文本訓練語料進行主題內容特征、條理結構特征、語言表達特征的提取，特征提取的步驟與步驟B中特征提取的步驟相同；步驟C′：依據對作文文本訓練語料所提取的特征和其人工評分進行評分的線性擬合，得到評分方程。

優選地，本發明漢語作文自動測試方法中，步驟A和步驟A′中對作文文本語料進行預處理包括：步驟A1：對作文文本語料進行非標準字符集的修改和去除；步驟A2：對作文文本語料中無意義的符號進行去除；步驟A3：對作文文本語料中無意義的漢字亂碼進行去除；步驟A4：對作文文本語料進行漢字分詞處理，其中：作文文本語料在步驟A′中為作文文本訓練語料；在步驟A中為作文文本待評語料。

優選地，本發明漢語作文自動測試方法中，步驟B和步驟B′中通過主題內容模型對預處理后的作文文本語料提取主題內容特征包括：步驟B1a：用預處理后作文文本語料進行潛在語義分析空間訓練；步驟B1b：將潛在語義分析空間訓練后的作文文本語料映射到潛在語義空間中，映射的方式為以下方式其中之一：1、潛在語義分析中以全文為文檔單元的方式；或2、基于序列潛在語義分析的以小于全文為文檔單元的方式；步驟B1c：對同主題作文文本語料映射得到的潛在語義向量與對應的人工文本打分進行支持向量回歸分析，得到主題內容模型；步驟B1d：用此主題內容模型對作文文本語料進行主題內容模型特征的提取，得到主題內容特征；其中：作文文本語料在步驟B′中為作文文本訓練語料；在步驟B中為作文文本待評語料。

優選地，本發明漢語作文自動測試方法中，步驟B1b中采用映射方式2將同主題作文文本語料映射到潛在語義空間包括：B1b1：將單篇的作文文本語料文本切分為n份，每一份分別映射到潛在語義空間中；B1b2：將得到的映射向量進行原順序的重組合，得到此篇作文文本保留序列信息的潛在語義向量。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所，未經中國科學院自動化研究所許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201110255852.1/2.html，轉載請聲明來源鉆瓜專利網。