[發(fā)明專利]面向漢語詞匯學(xué)習(xí)的分級詞表動態(tài)生成方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010123921.2 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111427991A | 公開(公告)日: | 2020-07-17 |
| 發(fā)明(設(shè)計)人: | 彭煒明;張曌;張引兵;宋繼華;宋天寶 | 申請(專利權(quán))人: | 彭煒明;宋繼華;宋天寶 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/289 |
| 代理公司: | 北京市盛峰律師事務(wù)所 11337 | 代理人: | 席小東 |
| 地址: | 100875 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 漢語 詞匯 學(xué)習(xí) 分級 詞表 動態(tài) 生成 方法 系統(tǒng) | ||
1.一種面向漢語詞匯學(xué)習(xí)的分級詞表動態(tài)生成方法,其特征在于,包括以下步驟:
S1,根據(jù)語言學(xué)和計量詞匯學(xué),確定合適的可量化的詞匯屬性,構(gòu)建詞表價值評價體系;
S2,結(jié)合S1中確定的詞匯屬性,對漢語分級語料進行標(biāo)注分析,獲取需要用到的有用的詞匯屬性信息;
S3,結(jié)合S1構(gòu)建的詞表價值評價體系和S2確定的詞匯屬性信息,通過分級詞表動態(tài)生成算法,自動生成分級詞表。
2.根據(jù)權(quán)利要求1所述的面向漢語詞匯學(xué)習(xí)的分級詞表動態(tài)生成方法,其特征在于,S1中,所述合適的可量化的詞匯屬性包括兩種:不依賴于上下文的詞匯內(nèi)部屬性和依賴于上下文的詞匯外部屬性;其中,詞匯內(nèi)部屬性包括詞匯本身詞性、詞匯本身釋義和詞匯的構(gòu)詞能力;其中,詞匯的構(gòu)詞能力包括構(gòu)詞方式和構(gòu)詞類型;詞匯外部屬性包括詞匯在特定語境中的詞性、詞匯在特定語境中的釋義和詞匯的頻率特征;其中,詞匯的頻率特征包括詞頻、文檔頻率和等級頻率。
3.根據(jù)權(quán)利要求1所述的面向漢語詞匯學(xué)習(xí)的分級詞表動態(tài)生成方法,其特征在于,S1具體包括如下步驟:
S101,基于“詞匯類推”的研究成果,結(jié)合中文詞匯的特點,將詞匯的構(gòu)詞能力具體化;S101具體包括如下步驟:
S1011,將詞表中的每個詞語進行減字類推,得到減字擴充詞表;
S1012,基于減字擴充詞表,進行組合類推,得到最終的擴充詞表;
S102,基于詞匯的構(gòu)詞能力對S1012得到的最終的擴充詞表進行價值評價計算,構(gòu)建得到詞表價值評價體系,S102具體包括如下步驟:
S1021,計算每個詞匯的詞頻TF值;
S1022,計算每個詞匯的文檔頻率DF值;
S1023,計算每個詞匯的等級頻率GF值;
S1024,計算每個詞匯對不同等級詞表的影響程度;
S1025,綜合考慮每個詞匯的詞頻TF值、文檔頻率DF值、等級頻率GF值和影響程度,計算每個詞匯的價值;
S1026,將詞表的每個詞匯的價值求和,得到詞表的總價值,由此得到詞表價值評價結(jié)果。
4.根據(jù)權(quán)利要求1所述的面向漢語詞匯學(xué)習(xí)的分級詞表動態(tài)生成方法,其特征在于,S1021具體為:
采用以下公式計算每個詞匯的詞頻TF值:
其中,為:詞語w在第i級教材中的詞頻TF值;
S1022具體為:
采用以下公式計算每個詞匯的文檔頻率DF值:
其中,為:詞語w在第i級教材的文章中的文檔頻率DF值;
S1023具體為:
采用以下公式計算每個詞匯的等級頻率GF值:
其中,GFw為:詞語w的等級頻率GF值;
S1024具體為:
(1)采用以下公式計算出現(xiàn)在第i級教材中的任一詞語wj對第i級教材的覆蓋度:
其中:
表示:出現(xiàn)在第i級教材中的任一詞語wj對第k級教材的覆蓋度;
表示:詞語wj在第k級教材的文章中的文檔頻率DF值;
表示:詞語wj的等級頻率GF值;
表示:詞語wj在第k級教材中的詞頻TF值;
(2)采用以下公式計算詞語的權(quán)重:
其中:
weightk為:出現(xiàn)在第i級教材中的任一詞語wj出現(xiàn)在第k級教材的權(quán)重;
即:當(dāng)出現(xiàn)在第i級教材中的任一詞語wj出現(xiàn)在第k(k≤i)級教材時,對應(yīng)的權(quán)重不改變;而當(dāng)其出現(xiàn)在第k(ki)級教材時,對應(yīng)的權(quán)重逐級遞減;
S1025具體為:
采用以下公式計算每個詞語的價值:
其中:為:出現(xiàn)在第i級教材中的任一詞語wj的價值;
S1026具體為:
采用以下公式計算第i級詞表的總價值:
其中:
scorei為:第i級詞表V′的詞表總價值;
n′為:第i級詞表V′包括的詞匯數(shù)量;
66453為:現(xiàn)代漢語詞典中的詞語總數(shù)量;
α是超參數(shù);如果出現(xiàn)在第i級教材中的任一詞語wj在核心集合中,則將α設(shè)置為1;如果出現(xiàn)在第i級教材中的任一詞語wj通過類推得到,即詞語wj在外延集合中,則將α設(shè)置為小于1大于0的數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于彭煒明;宋繼華;宋天寶,未經(jīng)彭煒明;宋繼華;宋天寶許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010123921.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





