[發(fā)明專利]一種漢語(yǔ)由字組詞方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201911045332.0 | 申請(qǐng)日: | 2019-10-30 |
| 公開(kāi)(公告)號(hào): | CN110781288A | 公開(kāi)(公告)日: | 2020-02-11 |
| 發(fā)明(設(shè)計(jì))人: | 于江德;李學(xué)鈺;趙紅丹;張津銘;張悅;楊英 | 申請(qǐng)(專利權(quán))人: | 安陽(yáng)師范學(xué)院 |
| 主分類號(hào): | G06F16/335 | 分類號(hào): | G06F16/335;G06F16/338;G06F40/205 |
| 代理公司: | 11424 北京修典盛世知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人: | 楊方成 |
| 地址: | 455000 河南省安陽(yáng)市弦歌*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 詞語(yǔ) 組詞 候選詞語(yǔ) 頻次統(tǒng)計(jì) 漢字 漢語(yǔ) 輸出組 語(yǔ)料庫(kù) 構(gòu)詞 輸出 融合 網(wǎng)絡(luò) | ||
本發(fā)明公開(kāi)了一種漢語(yǔ)由字組詞方法及裝置,包括以下步驟:S1、融合多個(gè)語(yǔ)料庫(kù)獲得最終的詞語(yǔ)頻次統(tǒng)計(jì)結(jié)果;S2、確定組詞漢字;S3、由確定的漢字生成候選詞語(yǔ);S4、從最終的詞語(yǔ)頻次統(tǒng)計(jì)結(jié)果中根據(jù)候選詞語(yǔ)的詞語(yǔ)頻次由高到低依次選取設(shè)定數(shù)量的詞語(yǔ);S5、輸出組詞結(jié)果。本發(fā)明將漢語(yǔ)由字組詞并輸出,方法簡(jiǎn)單、實(shí)現(xiàn)容易、組成的詞語(yǔ)符合人們的預(yù)期,和人工組詞結(jié)果擬合度高。所給出的組詞結(jié)果不僅有那些常見(jiàn)常用的詞語(yǔ),有時(shí)也有那些生動(dòng)、活潑、構(gòu)詞復(fù)雜但也常見(jiàn)常用的詞語(yǔ),也有一些時(shí)代感強(qiáng)的年度新詞和網(wǎng)絡(luò)新詞。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)領(lǐng)域,具體涉及一種漢語(yǔ)由字組詞方法及裝置。
背景技術(shù)
組詞是指把單個(gè)漢字與其他合適的漢字搭配而組成雙音節(jié)或多音節(jié)詞語(yǔ)。組詞是識(shí)字教學(xué)中非常重要的一環(huán),也是識(shí)字教學(xué)的內(nèi)容之一,是識(shí)字練習(xí)的提高,又是用詞說(shuō)話造句的基礎(chǔ),所以這一環(huán)節(jié)在漢語(yǔ)學(xué)習(xí)中起著舉足輕重的作用。而由字組詞常常是面向漢語(yǔ)初學(xué)者和對(duì)外漢語(yǔ)教學(xué)相關(guān)軟件中的必備模塊。
從檢索查閱的學(xué)術(shù)論文、專利、論著來(lái)看,還沒(méi)有實(shí)現(xiàn)漢語(yǔ)自動(dòng)由字組詞的相關(guān)技術(shù)、方法和裝置。
專利號(hào)為2007100792674、申請(qǐng)日為2007年2月13日的中國(guó)發(fā)明專利,其公開(kāi)了一種智能組詞輸入的方法和一種輸入法系統(tǒng)及其更新方法,本發(fā)明專利是由用戶輸入的編碼字符串(例如,拼音輸入法中的拼音字符串)確定最終輸入詞語(yǔ)的方法,該發(fā)明有效提高了用戶的輸入效率,提升了輸入法的用戶體驗(yàn)。但是,該發(fā)明僅僅從預(yù)置的互聯(lián)網(wǎng)語(yǔ)料庫(kù)中獲取組合信息,組詞方式比較單一,無(wú)法滿足漢語(yǔ)學(xué)習(xí)者。
目前,在一些漢語(yǔ)教學(xué)相關(guān)軟件中,漢語(yǔ)初學(xué)者進(jìn)行組詞練習(xí)時(shí),所給出的組詞結(jié)果多數(shù)情況下都是機(jī)械、重復(fù)、簡(jiǎn)單化的詞語(yǔ),鮮有生動(dòng)、活潑、以及構(gòu)詞復(fù)雜但也常見(jiàn)常用的詞語(yǔ),更少見(jiàn)那種得到廣泛認(rèn)同的網(wǎng)絡(luò)新詞。
針對(duì)上述問(wèn)題,本發(fā)明提出一種漢語(yǔ)由字組詞方法及裝置,通過(guò)融合三種途徑獲得詞語(yǔ)頻次統(tǒng)計(jì)結(jié)果,使用該詞語(yǔ)頻次統(tǒng)計(jì)結(jié)果進(jìn)行候選詞語(yǔ)篩選,最終組詞結(jié)果更常見(jiàn)、更常用、更貼近時(shí)代。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供一種漢語(yǔ)由字組詞方法及裝置。
為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了如下的技術(shù)方案:
本發(fā)明提供一種漢語(yǔ)由字組詞方法,包括以下步驟:
S1、融合三種途徑獲得最終的詞語(yǔ)頻次統(tǒng)計(jì)結(jié)果;
S2、確定組詞漢字;
S3、由確定的漢字生成候選詞語(yǔ);
S4、從最終的詞語(yǔ)頻次統(tǒng)計(jì)結(jié)果中根據(jù)候選詞語(yǔ)的詞語(yǔ)頻次由高到低依次選取設(shè)定數(shù)量的詞語(yǔ);
S5、輸出組詞結(jié)果。
作為本發(fā)明的一種優(yōu)選技術(shù)方案,步驟S1包括以下步驟:
S11、從現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)中獲得詞語(yǔ)頻次統(tǒng)計(jì)結(jié)果一;
S12、從教育部語(yǔ)信司確定的每年度十大網(wǎng)絡(luò)用語(yǔ)、十大流行語(yǔ)、十大新詞語(yǔ)中獲得詞語(yǔ)頻次統(tǒng)計(jì)結(jié)果二;
S13、將步驟S11和步驟S12中的統(tǒng)計(jì)結(jié)果通過(guò)網(wǎng)絡(luò)眾包讓參與者選擇出常見(jiàn)常用的詞語(yǔ),從而融合形成最終的詞語(yǔ)頻次統(tǒng)計(jì)結(jié)果。
作為本發(fā)明的一種優(yōu)選技術(shù)方案,步驟S2確定漢字包括以下步驟:由用戶輸入設(shè)定數(shù)量的漢字,或從字庫(kù)隨機(jī)抽取設(shè)定數(shù)量的漢字。
作為本發(fā)明的一種優(yōu)選技術(shù)方案,字庫(kù)按照筆畫的數(shù)量分成多個(gè)等級(jí),按照等級(jí)從字庫(kù)隨機(jī)抽取設(shè)定數(shù)量的漢字。
作為本發(fā)明的一種優(yōu)選技術(shù)方案,步驟S3中由確定的漢字排列組合生成候選詞語(yǔ),按候選詞語(yǔ)包含的字?jǐn)?shù)由少到多依次排列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安陽(yáng)師范學(xué)院,未經(jīng)安陽(yáng)師范學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911045332.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于學(xué)習(xí)式OWL建模的主流媒體報(bào)道熱點(diǎn)分析系統(tǒng)
- 一種預(yù)測(cè)網(wǎng)絡(luò)視頻廣告的到達(dá)頻次表數(shù)據(jù)的裝置及方法
- 具有書刊取閱頻次統(tǒng)計(jì)功能的閱覽架
- 具有書刊取閱頻次統(tǒng)計(jì)功能的閱覽架
- 基于互聯(lián)網(wǎng)的業(yè)務(wù)推廣系統(tǒng)
- 一種頻次類實(shí)時(shí)統(tǒng)計(jì)模型系統(tǒng)及方法
- 一種基于道路匹配數(shù)據(jù)統(tǒng)計(jì)評(píng)估貨車危險(xiǎn)程度的方法
- 定位點(diǎn)數(shù)據(jù)的過(guò)濾方法及裝置
- 一種基于訪問(wèn)頻率的緩存優(yōu)化方法及系統(tǒng)
- 工作面采動(dòng)對(duì)采空區(qū)礦震活動(dòng)影響時(shí)間和距離的確定方法





