[發明專利]面向漢語詞匯學習的分級詞表動態生成方法和系統在審
| 申請號: | 202010123921.2 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111427991A | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 彭煒明;張曌;張引兵;宋繼華;宋天寶 | 申請(專利權)人: | 彭煒明;宋繼華;宋天寶 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/289 |
| 代理公司: | 北京市盛峰律師事務所 11337 | 代理人: | 席小東 |
| 地址: | 100875 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 漢語 詞匯 學習 分級 詞表 動態 生成 方法 系統 | ||
1.一種面向漢語詞匯學習的分級詞表動態生成方法,其特征在于,包括以下步驟:
S1,根據語言學和計量詞匯學,確定合適的可量化的詞匯屬性,構建詞表價值評價體系;
S2,結合S1中確定的詞匯屬性,對漢語分級語料進行標注分析,獲取需要用到的有用的詞匯屬性信息;
S3,結合S1構建的詞表價值評價體系和S2確定的詞匯屬性信息,通過分級詞表動態生成算法,自動生成分級詞表。
2.根據權利要求1所述的面向漢語詞匯學習的分級詞表動態生成方法,其特征在于,S1中,所述合適的可量化的詞匯屬性包括兩種:不依賴于上下文的詞匯內部屬性和依賴于上下文的詞匯外部屬性;其中,詞匯內部屬性包括詞匯本身詞性、詞匯本身釋義和詞匯的構詞能力;其中,詞匯的構詞能力包括構詞方式和構詞類型;詞匯外部屬性包括詞匯在特定語境中的詞性、詞匯在特定語境中的釋義和詞匯的頻率特征;其中,詞匯的頻率特征包括詞頻、文檔頻率和等級頻率。
3.根據權利要求1所述的面向漢語詞匯學習的分級詞表動態生成方法,其特征在于,S1具體包括如下步驟:
S101,基于“詞匯類推”的研究成果,結合中文詞匯的特點,將詞匯的構詞能力具體化;S101具體包括如下步驟:
S1011,將詞表中的每個詞語進行減字類推,得到減字擴充詞表;
S1012,基于減字擴充詞表,進行組合類推,得到最終的擴充詞表;
S102,基于詞匯的構詞能力對S1012得到的最終的擴充詞表進行價值評價計算,構建得到詞表價值評價體系,S102具體包括如下步驟:
S1021,計算每個詞匯的詞頻TF值;
S1022,計算每個詞匯的文檔頻率DF值;
S1023,計算每個詞匯的等級頻率GF值;
S1024,計算每個詞匯對不同等級詞表的影響程度;
S1025,綜合考慮每個詞匯的詞頻TF值、文檔頻率DF值、等級頻率GF值和影響程度,計算每個詞匯的價值;
S1026,將詞表的每個詞匯的價值求和,得到詞表的總價值,由此得到詞表價值評價結果。
4.根據權利要求1所述的面向漢語詞匯學習的分級詞表動態生成方法,其特征在于,S1021具體為:
采用以下公式計算每個詞匯的詞頻TF值:
其中,為:詞語w在第i級教材中的詞頻TF值;
S1022具體為:
采用以下公式計算每個詞匯的文檔頻率DF值:
其中,為:詞語w在第i級教材的文章中的文檔頻率DF值;
S1023具體為:
采用以下公式計算每個詞匯的等級頻率GF值:
其中,GFw為:詞語w的等級頻率GF值;
S1024具體為:
(1)采用以下公式計算出現在第i級教材中的任一詞語wj對第i級教材的覆蓋度:
其中:
表示:出現在第i級教材中的任一詞語wj對第k級教材的覆蓋度;
表示:詞語wj在第k級教材的文章中的文檔頻率DF值;
表示:詞語wj的等級頻率GF值;
表示:詞語wj在第k級教材中的詞頻TF值;
(2)采用以下公式計算詞語的權重:
其中:
weightk為:出現在第i級教材中的任一詞語wj出現在第k級教材的權重;
即:當出現在第i級教材中的任一詞語wj出現在第k(k≤i)級教材時,對應的權重不改變;而當其出現在第k(ki)級教材時,對應的權重逐級遞減;
S1025具體為:
采用以下公式計算每個詞語的價值:
其中:為:出現在第i級教材中的任一詞語wj的價值;
S1026具體為:
采用以下公式計算第i級詞表的總價值:
其中:
scorei為:第i級詞表V′的詞表總價值;
n′為:第i級詞表V′包括的詞匯數量;
66453為:現代漢語詞典中的詞語總數量;
α是超參數;如果出現在第i級教材中的任一詞語wj在核心集合中,則將α設置為1;如果出現在第i級教材中的任一詞語wj通過類推得到,即詞語wj在外延集合中,則將α設置為小于1大于0的數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于彭煒明;宋繼華;宋天寶,未經彭煒明;宋繼華;宋天寶許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010123921.2/1.html,轉載請聲明來源鉆瓜專利網。





