[發明專利]用于英語口語考試自動評分的參考語法生成方法和設備有效
| 申請號: | 201210568270.3 | 申請日: | 2012-12-24 |
| 公開(公告)號: | CN103186658A | 公開(公告)日: | 2013-07-03 |
| 發明(設計)人: | 潘復平;丁銘;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所;北京中科信利技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京億騰知識產權代理事務所 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 英語口語 考試 自動 評分 參考 語法 生成 方法 設備 | ||
技術領域
本發明屬于計算機自動評分技術領域,具體地說,本發明涉及一種用于英語口語考試自動評分的參考語法生成算法。
背景技術
將機器評分系統應用到大規模的考試當中具有重要的意義,一方面大幅減少了人工重復勞動,另一方面又克服了人類主觀評價的不穩定性。但是要將計算機自動評分技術應用到英語口語考試中,特別是針對非母語學生的內容較開放的口語考試就顯得尤為困難。首先現有的語音識別器對這種內容開放且口音較重的語音識別率很低,無法滿足常規的基于單詞的語意分析;另外內容的開放性導致無法用固定的一套標準來做內容正確性的評價。一般的解決辦法是只考慮語音的發音質量和節奏韻律,但是這必然導致系統無法應用于對內容有較高要求的場合。為此基于音素混淆網絡的語法對齊被應用到了口語考試評分系統中。
所謂基于音素混淆網絡的語法對齊,是將語音解碼結果和人工編制多候選參考答案以音素混淆網絡這種格式進行強制對齊。例如,圖1是一個包括解碼結果和多候選參考答案的示例,圖2則是基于音素的強制對齊示例。這一方法的意義在于顯示了考生回答的內容與期望的答案的符合程度。
為了使這種對齊的結果盡量準確,那么就需要一套符合評分規則且覆蓋所有可能句式的參考答案?,F在參考答案采用人工編寫的方法,一般是聘請具有較高英語水平的多個專門人員,在參考考生整體水平的前提下寫出他們所有能夠想到的回答形式,并以擴展巴克斯范式ABNF語法的標準格式寫出。這樣做可以使得參考語法覆蓋考生回答的可能性大幅提高,ABNF語法可以用更少的文字輸入表達更多的句式和內容。但是人工編寫語法仍然是一個耗時費力的繁瑣過程,也不可能窮盡所有的回答,還會因為編寫者的主觀性使得參考答案超越考生實際水平。
發明內容
本發明的目的是克服原來編寫方式耗費人工和編寫者主觀性強的缺點,提供一種用于英語口語考試自動評分的參考語法生成算法和設備,該方法和設備基于考生語音識別結果切分音素鏈,統計詞頻信息,連接音素鏈,從而的自動生成參考語法。
在第一方面,本發明提供一種用于英語口語考試自動評分的參考語法生成方法,其特征在于,包括如下步驟:人工編寫少量基于ABNF規則的參考語法;利用單詞發音詞表,將基于ABNF規則的參考語法轉譯成音素詞圖;對音素詞圖做以元音音素為斷點的音素鏈切分操作,構成基礎音素鏈集中的音素鏈;計算基礎音素鏈集中的音素鏈與考生語音數據音素鏈集中的音素鏈的編輯距離;以編輯距離為特征,對考生語音數據音素鏈集進行聚類,計算同類音素鏈的出現頻率占總數的比例;剔除中占比小的音素鏈,將保留下來的音素鏈用音素鏈連接算法連接成完整的語法句式,最后以樹結構的音素詞圖保存為參考答案。
優選地,所述對音素詞圖做以元音音素為斷點的音素鏈切分操作,構成基礎音素鏈集中的音素鏈的步驟中的音素鏈切分操作包括:記錄音素詞圖中的元音音素位置,然后保存所述元音音素作為單音素音素鏈;從所述元音音素記錄的各個位置開始依次向下搜索,每次將搜索到的下一音素加入音素鏈,然后再向后搜索,直到碰到元音音素或句尾為止;完成全部搜索,存儲生成的音素鏈和句頭音素鏈,并剔除單音素音素鏈。
優選地,考生語音數據音素鏈集采用下列步驟產生:將考生語音送入大詞匯量連續語音識別器,輸出以單詞為單位的詞圖解碼結果;設置剪枝參數,把詞圖按詞聚類算法壓縮成單詞的混淆網絡;對混淆網絡,先將各混淆層的單詞轉譯成音素的形式,再利用元音音素點分割算法和跨詞的音素鏈連接算法將混淆網絡切分成頭尾為元音音素的音素鏈,最后記錄音素鏈和它的出現頻率統計值。
優選地,所述跨詞的音素鏈連接算法包括:將混淆網絡每一層的單詞由它的元音音素位置切分,然后將頭尾的每個元音音素分入前后的音素鏈中;保存單詞中間部分的音素鏈,頭尾的音素鏈則留待跨詞連接;找到所有跨詞連接層,連接跨詞連接層間的所有單詞頭尾音素鏈。
優選地,包括在計算基礎音素鏈集中的音素鏈與考生語音數據音素鏈集中的音素鏈的編輯距離的步驟之前,以人工參考語法為基礎,把考生語音數據音素鏈集中出現頻率大于閾值的音素鏈加入基礎語法的音素鏈集當中,以生成一個用于替代基礎音素鏈集作為參照基準的擴展基礎音素鏈集。
優選地,所述計算基礎音素鏈集中的音素鏈與考生語音數據音素鏈集中的音素鏈的編輯距離包括將與所有基礎音素鏈的編輯距離都高于閾值的音素鏈剔除出音素鏈集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科信利技術有限公司,未經中國科學院聲學研究所;北京中科信利技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210568270.3/2.html,轉載請聲明來源鉆瓜專利網。





