[發(fā)明專利]泰語(yǔ)術(shù)語(yǔ)提取的方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710982767.2 | 申請(qǐng)日: | 2017-10-20 |
| 公開(公告)號(hào): | CN107704452B | 公開(公告)日: | 2020-12-22 |
| 發(fā)明(設(shè)計(jì))人: | 張凱;閆昊;車雙武 | 申請(qǐng)(專利權(quán))人: | 傳神聯(lián)合(北京)信息技術(shù)有限公司 |
| 主分類號(hào): | G06F40/279 | 分類號(hào): | G06F40/279 |
| 代理公司: | 北京康盛知識(shí)產(chǎn)權(quán)代理有限公司 11331 | 代理人: | 李曉芳 |
| 地址: | 100000 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 泰語(yǔ) 術(shù)語(yǔ) 提取 方法 裝置 | ||
1.一種泰語(yǔ)術(shù)語(yǔ)提取的方法,其特征在于,包括:
從待處理泰語(yǔ)文檔中提取與設(shè)定泰語(yǔ)詞典中詞語(yǔ)匹配的第一泰語(yǔ)詞語(yǔ)進(jìn)行存儲(chǔ),并將提取所述第一泰語(yǔ)詞語(yǔ)后的所述待處理泰語(yǔ)文檔確定為待識(shí)別泰語(yǔ)文檔;
對(duì)所述待識(shí)別泰語(yǔ)文檔進(jìn)行信息熵處理,識(shí)別出滿足信息熵處理參數(shù)刷選條件的第二泰語(yǔ)詞語(yǔ);
將所述第一泰語(yǔ)詞語(yǔ)和第二泰語(yǔ)詞語(yǔ)確定為待提取泰語(yǔ)詞語(yǔ),并統(tǒng)計(jì)所述待處理泰語(yǔ)文檔中每個(gè)待提取泰語(yǔ)詞語(yǔ)的出現(xiàn)頻數(shù);
將所述出現(xiàn)頻數(shù)滿足設(shè)定條件的所述待提取泰語(yǔ)詞語(yǔ)確定為泰語(yǔ)術(shù)語(yǔ),并進(jìn)行提取。
2.如權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述待識(shí)別泰語(yǔ)文檔進(jìn)行信息熵處理,識(shí)別出滿足信息熵處理參數(shù)刷選條件的第二泰語(yǔ)詞語(yǔ)包括:
根據(jù)設(shè)定步長(zhǎng),對(duì)待識(shí)別泰語(yǔ)文檔進(jìn)行過濾分割處理,獲得包括至少一個(gè)切片泰文字符串的切片集合;
根據(jù)每個(gè)切片泰文字符串的信息熵處理參數(shù)值,對(duì)所述切片集合進(jìn)行刷選,形成詞匯輸出切片集合;
從所述詞匯輸出切片集合中,將設(shè)定個(gè)數(shù)的切片泰文字符串確定為識(shí)別出的第二泰語(yǔ)詞語(yǔ)。
3.如權(quán)利要求2所述的方法,其特征在于,當(dāng)所述信息熵處理參數(shù)值包括出現(xiàn)頻數(shù)、凝固程度值、以及信息熵自由度值時(shí),所述根據(jù)每個(gè)切片泰文字符串的信息熵處理參數(shù)值,對(duì)所述切片集合進(jìn)行刷選,形成詞匯輸出切片集合包括:
根據(jù)出現(xiàn)頻數(shù)超過設(shè)定頻數(shù)的切片泰文字符串,形成第一待輸出切片集合;
根據(jù)公式(2),確定所述第一待輸出切片集合中當(dāng)前切片泰文字符串的凝固程度值,并根據(jù)凝固程度值大于第一設(shè)定值的切片泰文字符串,形成第二待輸出切片集合;
根據(jù)公式(3),確定當(dāng)前切片泰文字符串的左鄰字信息熵和右鄰字信息熵,根據(jù)公式(4),將所述左鄰字信息熵和右鄰字信息熵中的較小值,確定為所述當(dāng)前切片泰文字符串的信息熵自由度值,并根據(jù)信息熵自由度值大于第二設(shè)定值的切片泰文字符串,形成詞匯輸出切片集合;
其中,Pi為每個(gè)切片泰文字符串的出現(xiàn)頻數(shù),Pij為當(dāng)前切片泰文字符串中對(duì)應(yīng)的子切片泰文字符串的出現(xiàn)頻數(shù),co為凝固程度值,P1j為第一個(gè)切片泰文字符串中對(duì)應(yīng)的子切片泰文字符串的出現(xiàn)頻數(shù),P2j為第二個(gè)切片泰文字符串中對(duì)應(yīng)的子切片泰文字符串的出現(xiàn)頻數(shù);
其中,Pi為每個(gè)切片泰文字符串的出現(xiàn)頻數(shù),H(U)為信息熵,E[-logPi]為求單個(gè)信號(hào)不確定性-logPi的統(tǒng)計(jì)平均值,n為信源頭符號(hào)取值種類的數(shù)量;
free=min{H(U)1,H(U)2,...H(U)n}---------------公式(4)
其中,H(U)為信息熵,free為信息熵自由度值,H(U)1為第一個(gè)切片泰文字符串的信息熵,H(U)2為第二個(gè)切片泰文字符串的信息熵,H(U)n為第n個(gè)切片泰文字符串的信息熵。
4.如權(quán)利要求2所述的方法,其特征在于,所述從所述詞匯輸出切片集合中,將設(shè)定個(gè)數(shù)的切片泰文字符串確定為識(shí)別出的第二泰語(yǔ)詞語(yǔ)包括:
根據(jù)出現(xiàn)頻率的高低對(duì)所述詞匯輸出切片集合中的每個(gè)切片泰文字符串進(jìn)行前后排序;
將位于最前方的設(shè)定個(gè)數(shù)的切片泰文字符串確定為識(shí)別出的第二泰語(yǔ)詞語(yǔ)。
5.如權(quán)利要求1所述的方法,其特征在于,所述將所述出現(xiàn)頻數(shù)滿足設(shè)定條件的所述待提取泰語(yǔ)詞語(yǔ)確定為泰語(yǔ)術(shù)語(yǔ)包括:
將泰文字符串長(zhǎng)度小于設(shè)定長(zhǎng)度的所述待提取泰語(yǔ)詞語(yǔ)確定為第一待提取泰語(yǔ)詞語(yǔ);
根據(jù)出現(xiàn)頻率的高低對(duì)每個(gè)第一待提取泰語(yǔ)詞語(yǔ)進(jìn)行前后排序;
將位于最前方的設(shè)定個(gè)數(shù)的所述第一待提取泰語(yǔ)詞語(yǔ)確定為所述泰語(yǔ)術(shù)語(yǔ)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于傳神聯(lián)合(北京)信息技術(shù)有限公司,未經(jīng)傳神聯(lián)合(北京)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710982767.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 泰語(yǔ)顯示方法、裝置和系統(tǒng)
- 泰語(yǔ)術(shù)語(yǔ)提取的方法及裝置
- 泰語(yǔ)詞語(yǔ)識(shí)別的方法及裝置
- 泰語(yǔ)音節(jié)切分的方法及裝置
- 實(shí)現(xiàn)泰語(yǔ)輸入的方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種泰語(yǔ)語(yǔ)音學(xué)習(xí)輔助系統(tǒng)
- 一種基于最大熵分類模型與泰語(yǔ)語(yǔ)法規(guī)則校正的泰語(yǔ)句子切分方法
- 一種高精度的泰語(yǔ)分句方法
- 一種以泰語(yǔ)為樞軸的老-漢雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建方法及裝置
- 一種泰語(yǔ)學(xué)習(xí)訓(xùn)練裝置
- 一種領(lǐng)域術(shù)語(yǔ)抽取的方法
- 醫(yī)學(xué)術(shù)語(yǔ)識(shí)別方法及裝置
- 術(shù)語(yǔ)抽取方法和裝置
- 一種醫(yī)療術(shù)語(yǔ)知識(shí)庫(kù)完善的方法和裝置
- 一種構(gòu)建制造領(lǐng)域術(shù)語(yǔ)庫(kù)的方法及系統(tǒng)
- 術(shù)語(yǔ)更新方法以及相關(guān)設(shè)備、裝置
- 一種醫(yī)學(xué)術(shù)語(yǔ)系統(tǒng)的構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于多特征的術(shù)語(yǔ)檢索方法
- 一種術(shù)語(yǔ)替換方法及系統(tǒng)
- 一種標(biāo)準(zhǔn)術(shù)語(yǔ)確定方法、裝置及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





