[發(fā)明專利]單詞的音節(jié)記錄方法及裝置有效
| 申請?zhí)枺?/td> | 202110079369.6 | 申請日: | 2021-01-21 |
| 公開(公告)號: | CN112905024B | 公開(公告)日: | 2023-10-27 |
| 發(fā)明(設(shè)計(jì))人: | 李博林 | 申請(專利權(quán))人: | 李博林 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023;G06F16/31;G06F40/216;G06F40/284;G06F40/289 |
| 代理公司: | 深圳市育科知識產(chǎn)權(quán)代理有限公司 44509 | 代理人: | 何凱威 |
| 地址: | 100000 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 單詞 音節(jié) 記錄 方法 裝置 | ||
1.一種單詞的音節(jié)記錄方法,其特征在于,包括:
從待處理的若干詞語中獲取至少一個(gè)單詞,所述單詞中包含至少三個(gè)字母;
將所述單詞按照預(yù)設(shè)單詞拼讀規(guī)則進(jìn)行拆分得到訓(xùn)練集,所述訓(xùn)練集包括所述預(yù)設(shè)單詞拼讀規(guī)則的音節(jié)索引及每個(gè)所述字母在所述音節(jié)索引中的位置信息;
對所述訓(xùn)練集進(jìn)行切分確定所述單詞中的至少兩個(gè)字母及所述兩個(gè)字母組合的字符串對應(yīng)所述位置信息的條件概率;
基于所述條件概率確定目標(biāo)單詞以及所述目標(biāo)音節(jié)對應(yīng)的目標(biāo)音節(jié)索引,所述目標(biāo)音節(jié)索引滿足所述預(yù)設(shè)單詞拼讀規(guī)則。
2.根據(jù)權(quán)利要求1所述的單詞的音節(jié)記錄方法,其特征在于,所述基于所述條件概率確定目標(biāo)單詞以及所述目標(biāo)音節(jié)對應(yīng)的目標(biāo)音節(jié)索引,包括:
獲取所述字符串中的第一字母及所述第一字母對應(yīng)的第一位置信息;
根據(jù)所述第一字母及所述第一位置信息確定與所述第一字母關(guān)聯(lián)的第二字母;
計(jì)算所述第一字母、所述第一位置信息及所述第二字母同時(shí)存在于所述目標(biāo)單詞中的條件概率。
3.根據(jù)權(quán)利要求2所述的單詞的音節(jié)記錄方法,其特征在于,所述計(jì)算所述第一字母、所述第一位置信息及所述第二字母同時(shí)存在于所述目標(biāo)單詞中的條件概率,包括:
將所述目標(biāo)單詞按照所述預(yù)設(shè)拼讀規(guī)則進(jìn)行切分得到切分結(jié)果,所述切分結(jié)果包括所述目標(biāo)單詞及所述目標(biāo)單詞對應(yīng)的目標(biāo)音節(jié);
判斷所述切分結(jié)果是否存在于數(shù)據(jù)庫中;
若否,將所述目標(biāo)音節(jié)、所述目標(biāo)單詞及所述目標(biāo)音節(jié)索引存儲至所述數(shù)據(jù)庫。
4.根據(jù)權(quán)利要求1所述的單詞的音節(jié)記錄方法,其特征在于,包括:
所述音節(jié)索引包括音節(jié)的開頭、中段和結(jié)尾,所述音節(jié)的開頭、中段和結(jié)尾對應(yīng)所述單詞中的至少一個(gè)字母。
5.根據(jù)權(quán)利要求1所述的單詞的音節(jié)記錄方法,其特征在于,包括:
當(dāng)所述單詞的預(yù)設(shè)單詞拼讀規(guī)則對應(yīng)的音節(jié)索引的數(shù)量為三,遍歷所述單詞的每個(gè)字母得到每個(gè)所述字母的第二位置信息、以及生成所述單詞對應(yīng)的第一訓(xùn)練集;
根據(jù)所述第二位置信息和所述音節(jié)索引得到第一字符串、第二字符串和第三字符串、以及所述第一字符串、第二字符串和第三字符串中的字母數(shù)值,其中每個(gè)字符串包含至少兩個(gè)字母;
將所述第一字母串、所述第二字母串和所述第三字母串分別標(biāo)記為開頭音節(jié)、中段音節(jié)和結(jié)尾音節(jié),根據(jù)每個(gè)字母串中的字母數(shù)值和所述第二位置信息對應(yīng)標(biāo)記每個(gè)字母。
6.根據(jù)權(quán)利要求5所述的單詞的音節(jié)記錄方法,其特征在于,在生成所述單詞第一訓(xùn)練集之后,包括:
采用隱馬爾可夫模型對所述第一訓(xùn)練集進(jìn)行自動切分,所述第一訓(xùn)練集對應(yīng)的條件概率表示為:
其中,以所述第一訓(xùn)練集中存在于所述第一字母串的第一字母為例,那么A、B分別表示為:
A:該字母為音節(jié)的首字母;
B:該字母為第一字母,且該字母后面的一個(gè)字母為第二字母;
統(tǒng)計(jì)出所述第一字母為首字母,且緊鄰所述第一字母的第二字母的概率記為P(AB),統(tǒng)計(jì)出所述第一字母為任意字母且所述第一字母的后面單詞為第二字母的概率記為P(B)。
7.根據(jù)權(quán)利要求1所述的單詞的音節(jié)記錄方法,其特征在于,包括:
當(dāng)所述單詞的預(yù)設(shè)單詞拼讀規(guī)則對應(yīng)的音節(jié)索引的數(shù)量為三,遍歷所述單詞的每個(gè)字母得到每個(gè)所述字母的第二位置信息、以及生成所述單詞對應(yīng)的第一訓(xùn)練集;
根據(jù)所述第二位置信息和所述音節(jié)索引得到第一字符串、第二字符串和第三字符串、以及所述第一字符串、所述第二字符串和所述第三字符串中的字母數(shù)值,其中所述第一字符串的字母數(shù)值為一,所述第二字符串和所述第三字符串包含至少兩個(gè)字母;
將所述第一字母串中的字母標(biāo)記為單音節(jié)對應(yīng)的單字符,將所述第二字母串和所述第三字母串分別標(biāo)記為開頭字符、中段字符和結(jié)尾字符,根據(jù)所述第二字符串、所述第三字符串中的字母數(shù)值和所述第二位置信息對應(yīng)標(biāo)記每個(gè)字母。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于李博林,未經(jīng)李博林許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110079369.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計(jì)算機(jī)能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機(jī)傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計(jì)算機(jī)之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時(shí)間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機(jī)上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出





