[發明專利]一種新型文本可讀性評估方法及系統在審
| 申請號: | 202110459535.5 | 申請日: | 2021-04-27 |
| 公開(公告)號: | CN113158643A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 丘心穎;申宇銘 | 申請(專利權)人: | 廣東外語外貿大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/253;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 廣州凱東知識產權代理有限公司 44259 | 代理人: | 吳發登 |
| 地址: | 510010 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 新型 文本 可讀性 評估 方法 系統 | ||
本發明公開了一種基于雙通道神經網絡模型的文本可讀性評估方法及系統,所述方法包括提取需要評估的文本的語義稠密嵌入表示和句法稠密嵌入表示,將提取到的語義稠密嵌入表示和句法稠密嵌入表示輸入雙通道神經網絡模型中,實現特征的提取,將提取出的特征進行結合,形成語義與語法的稠密嵌入表示,將語義與語法的稠密嵌入表示輸入至深度神經網絡中進行預測,從而實現文本可讀性的評估;通過設計雙通道神經網絡模型,并且提取需要評估的文本的語義稠密嵌入表示和句法稠密嵌入表示,從多個角度進行評估,能夠提高文本可讀性評估的效率和準確率,從而解決了現有技術僅僅在詞嵌入級別這方面展開可讀性評估所存在的評估不夠準確和嚴謹的缺陷。
技術領域
本發明涉及文本可讀性評估的技術領域,尤其涉及一種新型文本可讀性評估方法及系統。
背景技術
可讀性評價方法旨在發現影響文本閱讀難度的語言特征,或者基于有效特征構建數學公式或者模型來表示文本的語言難度或者理解難度,對于文本的可讀性進行評估,能夠有效對文本進行分類,現有技術中對于文本可讀性的評估一般都是使用詞匯術語或語言特征向量空間模型來表示文檔,可能對文檔可讀性預測有較大影響的語言特征包括淺層特征、詞匯/詞性特征、句法特征和語篇/連貫特征進行評估,從而實現文本可讀性的評估。
然而,現有技術中的文本可讀性評估僅僅是在詞嵌入級別這方面進行展開,但是在文本可讀性評估中,結構信息至關重要,一個結構簡單的句子容易閱讀,而另一個具有相同語義信息但結構復雜的句子可能更難理解,因此,僅僅是在詞嵌入級別這方面展開可讀性評估的方法并不夠準確和嚴謹。
發明內容
有鑒于此,本發明提出一種新型文本可讀性評估方法及系統,可以解決現有文本可讀性評估所存在的不夠準確和嚴謹的缺陷。
本發明的技術方案是這樣實現的:
一種新型文本可讀性評估方法,所述方法基于雙通道神經網絡模型,包括以下步驟:
步驟S1,提取需要評估的文本的語義稠密嵌入表示和句法稠密嵌入表示;
步驟S2,將提取到的語義稠密嵌入表示和句法稠密嵌入表示輸入雙通道神經網絡模型中,實現特征的提取;
步驟S3,將提取出的特征進行結合,形成語義與語法的稠密嵌入表示;
步驟S4,將語義與語法的稠密嵌入表示輸入至深度神經網絡中進行預測,從而實現文本可讀性的評估。
作為所述新型文本可讀性評估方法的進一步可選方案,所述步驟S1中提取需要評估的文本的語義稠密嵌入表示是通過采用預訓練語義模型生成。
作為所述新型文本可讀性評估方法的進一步可選方案,所述步驟S1中提取需要評估的文本的句法稠密嵌入表示包括以下步驟:
提取需要評估的文本的語言特征并構建向量空間表示;
依據每個語言特征之間的關系構建出特征圖;
將表示學習算法應用于所述特征圖上,生成句法潛在空間;
運用矩陣向量乘法將語言特征向量投影到句法潛在空間上,從而形成句法稠密嵌入表示。
作為所述新型文本可讀性評估方法的進一步可選方案,所述雙通道神經網絡模型包括DNN雙通道模型和DNN-LSTM雙通道模型。
作為所述新型文本可讀性評估方法的進一步可選方案,所述步驟S2中對句法稠密嵌入表示進行特征提取是采用DNN雙通道模型,主要具體包括以下步驟:
將句法稠密嵌入表示輸入至DNN雙通道模型的兩層網絡中;
依據預訓練語義模型平均嵌入表示,將DNN雙通道模型的兩層輸出內容與預訓練語義模型嵌入矩陣的四層神經網絡輸出內容結合起來,從而實現句法稠密嵌入表示的特征提取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東外語外貿大學,未經廣東外語外貿大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110459535.5/2.html,轉載請聲明來源鉆瓜專利網。





