[發(fā)明專利]面向漢語詞匯學(xué)習(xí)的分級(jí)詞表動(dòng)態(tài)生成方法和系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202010123921.2 | 申請(qǐng)日: | 2020-02-27 |
| 公開(公告)號(hào): | CN111427991A | 公開(公告)日: | 2020-07-17 |
| 發(fā)明(設(shè)計(jì))人: | 彭煒明;張曌;張引兵;宋繼華;宋天寶 | 申請(qǐng)(專利權(quán))人: | 彭煒明;宋繼華;宋天寶 |
| 主分類號(hào): | G06F16/31 | 分類號(hào): | G06F16/31;G06F40/289 |
| 代理公司: | 北京市盛峰律師事務(wù)所 11337 | 代理人: | 席小東 |
| 地址: | 100875 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 漢語 詞匯 學(xué)習(xí) 分級(jí) 詞表 動(dòng)態(tài) 生成 方法 系統(tǒng) | ||
本發(fā)明提供一種面向漢語詞匯學(xué)習(xí)的分級(jí)詞表動(dòng)態(tài)生成方法和系統(tǒng),方法包括:根據(jù)語言學(xué)和計(jì)量詞匯學(xué),確定合適的可量化的詞匯屬性,構(gòu)建詞表價(jià)值評(píng)價(jià)體系;結(jié)合詞匯屬性,對(duì)漢語分級(jí)語料進(jìn)行標(biāo)注分析,獲取需要用到的有用的詞匯屬性信息;結(jié)合構(gòu)建的詞表價(jià)值評(píng)價(jià)體系和確定的詞匯屬性信息,通過分級(jí)詞表動(dòng)態(tài)生成算法,自動(dòng)生成分級(jí)詞表。優(yōu)點(diǎn)為:本發(fā)明提供一種面向漢語詞匯學(xué)習(xí)的分級(jí)詞表動(dòng)態(tài)生成方法和系統(tǒng),能夠節(jié)省更新詞表時(shí)所需要的大量人力和財(cái)力,使?jié)h語學(xué)習(xí)資料更具有時(shí)效性,提升漢語學(xué)習(xí)效果。
技術(shù)領(lǐng)域
本發(fā)明屬于語料庫語言學(xué)和自然語言處理技術(shù)領(lǐng)域,具體涉及一種面向漢 語詞匯學(xué)習(xí)的分級(jí)詞表動(dòng)態(tài)生成方法和系統(tǒng)。
背景技術(shù)
歐洲語言測(cè)試者協(xié)會(huì)發(fā)布了歐洲語言共同參考框架,用于評(píng)估學(xué)習(xí)者對(duì)所 學(xué)語言的掌握程度。歐洲語言共同參考框架將語言能力分為六級(jí),并對(duì)各級(jí)別 所要求達(dá)到的語言能力進(jìn)行了詳細(xì)描述,為詞表的分級(jí)提供了理論支撐。
我國從上世紀(jì)60年代開始研制用于對(duì)外漢語教學(xué)的詞表,詞表的研制基本 依靠人工篩選,由于沒有統(tǒng)一的標(biāo)準(zhǔn),各種詞表層出不窮。隨著時(shí)代發(fā)展和語 言使用習(xí)慣的變更,年代久遠(yuǎn)的詞表暴露出越來越多的問題,傳統(tǒng)的依靠人力 的詞表研制方式在規(guī)范化、規(guī)模化、信息化、自動(dòng)化、重復(fù)性、時(shí)效性以及可 解釋性等方面均無法滿足當(dāng)前國際漢語教學(xué)領(lǐng)域的需求。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供一種面向漢語詞匯學(xué)習(xí)的分級(jí)詞表 動(dòng)態(tài)生成方法和系統(tǒng),可有效解決上述問題。
本發(fā)明采用的技術(shù)方案如下:
本發(fā)明提供一種面向漢語詞匯學(xué)習(xí)的分級(jí)詞表動(dòng)態(tài)生成方法,包括以下步 驟:
S1,根據(jù)語言學(xué)和計(jì)量詞匯學(xué),確定合適的可量化的詞匯屬性,構(gòu)建詞表 價(jià)值評(píng)價(jià)體系;
S2,結(jié)合S1中確定的詞匯屬性,對(duì)漢語分級(jí)語料進(jìn)行標(biāo)注分析,獲取需要 用到的有用的詞匯屬性信息;
S3,結(jié)合S1構(gòu)建的詞表價(jià)值評(píng)價(jià)體系和S2確定的詞匯屬性信息,通過分級(jí) 詞表動(dòng)態(tài)生成算法,自動(dòng)生成分級(jí)詞表。
優(yōu)選的,S1中,所述合適的可量化的詞匯屬性包括兩種:不依賴于上下文 的詞匯內(nèi)部屬性和依賴于上下文的詞匯外部屬性;其中,詞匯內(nèi)部屬性包括詞 匯本身詞性、詞匯本身釋義和詞匯的構(gòu)詞能力;其中,詞匯的構(gòu)詞能力包括構(gòu) 詞方式和構(gòu)詞類型;詞匯外部屬性包括詞匯在特定語境中的詞性、詞匯在特定 語境中的釋義和詞匯的頻率特征;其中,詞匯的頻率特征包括詞頻、文檔頻率 和等級(jí)頻率。
優(yōu)選的,S1具體包括如下步驟:
S101,基于“詞匯類推”的研究成果,結(jié)合中文詞匯的特點(diǎn),將詞匯的構(gòu) 詞能力具體化;S101具體包括如下步驟:
S1011,將詞表中的每個(gè)詞語進(jìn)行減字類推,得到減字?jǐn)U充詞表;
S1012,基于減字?jǐn)U充詞表,進(jìn)行組合類推,得到最終的擴(kuò)充詞表;
S102,基于詞匯的構(gòu)詞能力對(duì)S1012得到的最終的擴(kuò)充詞表進(jìn)行價(jià)值評(píng)價(jià)計(jì) 算,構(gòu)建得到詞表價(jià)值評(píng)價(jià)體系,S102具體包括如下步驟:
S1021,計(jì)算每個(gè)詞匯的詞頻TF值;
S1022,計(jì)算每個(gè)詞匯的文檔頻率DF值;
S1023,計(jì)算每個(gè)詞匯的等級(jí)頻率GF值;
S1024,計(jì)算每個(gè)詞匯對(duì)不同等級(jí)詞表的影響程度;
S1025,綜合考慮每個(gè)詞匯的詞頻TF值、文檔頻率DF值、等級(jí)頻率GF值和 影響程度,計(jì)算每個(gè)詞匯的價(jià)值;
S1026,將詞表的每個(gè)詞匯的價(jià)值求和,得到詞表的總價(jià)值,由此得到詞表 價(jià)值評(píng)價(jià)結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于彭煒明;宋繼華;宋天寶,未經(jīng)彭煒明;宋繼華;宋天寶許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010123921.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





