[發(fā)明專(zhuān)利]泰語(yǔ)詞語(yǔ)識(shí)別的方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201710982841.0 | 申請(qǐng)日: | 2017-10-20 |
| 公開(kāi)(公告)號(hào): | CN107807918A | 公開(kāi)(公告)日: | 2018-03-16 |
| 發(fā)明(設(shè)計(jì))人: | 張凱;閆昊;車(chē)雙武 | 申請(qǐng)(專(zhuān)利權(quán))人: | 傳神聯(lián)合(北京)信息技術(shù)有限公司 |
| 主分類(lèi)號(hào): | G06F17/27 | 分類(lèi)號(hào): | G06F17/27 |
| 代理公司: | 北京康盛知識(shí)產(chǎn)權(quán)代理有限公司11331 | 代理人: | 李曉芳 |
| 地址: | 100000 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 泰語(yǔ) 詞語(yǔ) 識(shí)別 方法 裝置 | ||
1.一種泰語(yǔ)詞語(yǔ)識(shí)別的方法,其特征在于,包括:
根據(jù)設(shè)定步長(zhǎng),對(duì)待識(shí)別泰語(yǔ)文檔進(jìn)行過(guò)濾分割處理,獲得包括至少一個(gè)切片泰文字符串的切片集合;
根據(jù)每個(gè)切片泰文字符串的信息熵處理參數(shù)值,對(duì)所述切片集合進(jìn)行刷選,形成詞匯輸出切片集合;
從所述詞匯輸出切片集合中,將設(shè)定個(gè)數(shù)的切片泰文字符串確定為識(shí)別出的泰語(yǔ)詞語(yǔ)。
2.如權(quán)利要求1所述的方法,其特征在于,當(dāng)所述信息熵處理參數(shù)值包括出現(xiàn)頻數(shù)、凝固程度值、以及信息熵自由度值時(shí),所述根據(jù)每個(gè)切片泰文字符串的信息熵處理參數(shù)值,對(duì)所述切片集合進(jìn)行刷選,形成詞匯輸出切片集合包括:
根據(jù)出現(xiàn)頻數(shù)超過(guò)設(shè)定頻數(shù)的切片泰文字符串,形成第一待輸出切片集合;
確定所述第一待輸出切片集合中每個(gè)切片泰文字符串的凝固程度值,并根據(jù)凝固程度值大于第一設(shè)定值的切片泰文字符串,形成第二待輸出切片集合;
確定所述第二待輸出切片集合中每個(gè)切片泰文字符串的信息熵自由度值,并根據(jù)信息熵自由度值大于第二設(shè)定值的切片泰文字符串,形成詞匯輸出切片集合。
3.如權(quán)利要求2所述的方法,其特征在于,所述確定所述第一待輸出切片集合中每個(gè)切片泰文字符串的凝固程度值包括:
根據(jù)公式(2),確定所述第一待輸出切片集合中當(dāng)前切片泰文字符串的凝固程度值;
其中,Pi為當(dāng)前切片泰文字符串的出現(xiàn)頻數(shù),Pij為當(dāng)前切片泰文字符串中對(duì)應(yīng)的子切片泰文字符串的出現(xiàn)頻數(shù),co為凝固程度值。
4.如權(quán)利要求2所述的方法,其特征在于,所述確定所述第二待輸出切片集合中每個(gè)切片泰文字符串的信息熵自由度值包括:
根據(jù)公式(3),確定當(dāng)前切片泰文字符串的左鄰字信息熵和右鄰字信息熵;
根據(jù)公式(4),將所述左鄰字信息熵和右鄰字信息熵中的較小值,確定為所述當(dāng)前切片泰文字符串的信息熵自由度值;
其中,Pi為每個(gè)切片泰文字符串的出現(xiàn)頻數(shù),H(U)為信息熵;
free=min{H(U)1,H(U)2,...H(U)n}---------------公式(4)
其中,H(U)為信息熵,free為信息熵自由度值。
5.如權(quán)利要求1所述的方法,其特征在于,所述從所述詞匯輸出切片集合中,將設(shè)定個(gè)數(shù)的切片泰文字符串確定為識(shí)別出的泰語(yǔ)詞語(yǔ)包括:
根據(jù)出現(xiàn)頻率的高低對(duì)所述詞匯輸出切片集合中的每個(gè)切片泰文字符串進(jìn)行前后排序;
將位于最前方的設(shè)定個(gè)數(shù)的切片泰文字符串確定為識(shí)別出的泰語(yǔ)詞語(yǔ)。
6.一種泰語(yǔ)詞語(yǔ)識(shí)別的裝置,其特征在于,包括:
過(guò)濾分割單元,用于根據(jù)設(shè)定步長(zhǎng),對(duì)待識(shí)別泰語(yǔ)文檔進(jìn)行過(guò)濾分割處理,獲得包括至少一個(gè)切片泰文字符串的切片集合;
信息熵刷選單元,用于根據(jù)每個(gè)切片泰文字符串的信息熵處理參數(shù)值,對(duì)所述切片集合進(jìn)行刷選,形成詞匯輸出切片集合;
詞語(yǔ)確定單元,用于從所述詞匯輸出切片集合中,將設(shè)定個(gè)數(shù)的切片泰文字符串確定為識(shí)別出的泰語(yǔ)詞語(yǔ)。
7.如權(quán)利要求6所述的裝置,其特征在于,所述信息熵刷選單元包括:
頻數(shù)刷選模塊,用于根據(jù)出現(xiàn)頻數(shù)超過(guò)設(shè)定頻數(shù)的切片泰文字符串,形成第一待輸出切片集合;
凝固程度刷選模塊,用于確定所述第一待輸出切片集合中每個(gè)切片泰文字符串的凝固程度值,并根據(jù)凝固程度值大于第一設(shè)定值的切片泰文字符串,形成第二待輸出切片集合;
自由度刷選模塊,用于確定所述第二待輸出切片集合中每個(gè)切片泰文字符串的信息熵自由度值,并根據(jù)信息熵自由度值大于第二設(shè)定值的切片泰文字符串,形成詞匯輸出切片集合。
8.如權(quán)利要求7所述的裝置,其特征在于,
所述凝固程度刷選模塊,具體用于根據(jù)公式(2),確定所述第一待輸出切片集合中當(dāng)前切片泰文字符串的凝固程度值;
其中,Pi為當(dāng)前切片泰文字符串的出現(xiàn)頻數(shù),Pij為當(dāng)前切片泰文字符串中對(duì)應(yīng)的子切片泰文字符串的出現(xiàn)頻數(shù),co為凝固程度值。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于傳神聯(lián)合(北京)信息技術(shù)有限公司,未經(jīng)傳神聯(lián)合(北京)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710982841.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種基于web的電子表單設(shè)計(jì)系統(tǒng)及方法
- 下一篇:一種利用循環(huán)隨機(jī)游走網(wǎng)絡(luò)進(jìn)行微博情感分類(lèi)預(yù)測(cè)的方法
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 泰語(yǔ)顯示方法、裝置和系統(tǒng)
- 泰語(yǔ)術(shù)語(yǔ)提取的方法及裝置
- 泰語(yǔ)詞語(yǔ)識(shí)別的方法及裝置
- 泰語(yǔ)音節(jié)切分的方法及裝置
- 實(shí)現(xiàn)泰語(yǔ)輸入的方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種泰語(yǔ)語(yǔ)音學(xué)習(xí)輔助系統(tǒng)
- 一種基于最大熵分類(lèi)模型與泰語(yǔ)語(yǔ)法規(guī)則校正的泰語(yǔ)句子切分方法
- 一種高精度的泰語(yǔ)分句方法
- 一種以泰語(yǔ)為樞軸的老-漢雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建方法及裝置
- 一種泰語(yǔ)學(xué)習(xí)訓(xùn)練裝置
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





