[發(fā)明專利]泰語術(shù)語提取的方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710982767.2 | 申請(qǐng)日: | 2017-10-20 |
| 公開(公告)號(hào): | CN107704452B | 公開(公告)日: | 2020-12-22 |
| 發(fā)明(設(shè)計(jì))人: | 張凱;閆昊;車雙武 | 申請(qǐng)(專利權(quán))人: | 傳神聯(lián)合(北京)信息技術(shù)有限公司 |
| 主分類號(hào): | G06F40/279 | 分類號(hào): | G06F40/279 |
| 代理公司: | 北京康盛知識(shí)產(chǎn)權(quán)代理有限公司 11331 | 代理人: | 李曉芳 |
| 地址: | 100000 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 泰語 術(shù)語 提取 方法 裝置 | ||
本發(fā)明公開了泰語術(shù)語提取的方法及裝置,屬于信息檢索技術(shù)領(lǐng)域。該方法包括:從待處理泰語文檔中提取與設(shè)定泰語詞典中詞語匹配的第一泰語詞語進(jìn)行存儲(chǔ),并將提取所述第一泰語詞語后的所述待處理泰語文檔確定為待識(shí)別泰語文檔;對(duì)所述待識(shí)別泰語文檔進(jìn)行信息熵處理,識(shí)別出滿足信息熵處理參數(shù)刷選條件的第二泰語詞語;將所述第一泰語詞語和第二泰語詞語確定為待提取泰語詞語,并統(tǒng)計(jì)所述待處理泰語文檔中每個(gè)待提取泰語詞語的出現(xiàn)頻數(shù);將所述出現(xiàn)頻數(shù)滿足設(shè)定條件的所述待提取泰語詞語確定為泰語術(shù)語,并進(jìn)行提取。這樣,可通過信息熵處理,從泰語文檔中識(shí)別并提取泰語術(shù)語,提高了泰語術(shù)語提取的效率和準(zhǔn)確率,以及泰語文檔的閱讀速度。
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,特別涉及泰語術(shù)語提取的方法及裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的信息呈爆炸趨勢(shì),信息量不斷上升。面對(duì)海量的大數(shù)據(jù)用戶如何把握某篇文章的主題思想是節(jié)約讀者時(shí)間、提高閱讀速度的關(guān)鍵問題。文章的術(shù)語作為文章的主題和作者思想的體現(xiàn)能夠有效解決問題。然而,若采取人工標(biāo)記方法進(jìn)行術(shù)語標(biāo)注,不僅浪費(fèi)時(shí)間和精力、效率低下,而且主觀能動(dòng)性較大。因此,術(shù)語的提取帶來了較為重要的現(xiàn)實(shí)意義。
泰語(),也稱傣語(Dai language),是傣泰民族的語言,屬于東亞語系/漢藏語系的一種語言。全球有約6800萬人口使用泰語。泰語的文檔中,詞與詞之間不用標(biāo)點(diǎn),不留空格,一句話從頭到尾連續(xù)不斷的拼寫,一般,以空兩個(gè)字母的間隔或句子當(dāng)中的小停頓表示一個(gè)句子。這樣,泰語術(shù)語的提取,很難像英語和漢語那樣,采用停用詞和分詞的方式,或者依靠詞頻、詞語長度、空格或標(biāo)點(diǎn)符號(hào)等方式進(jìn)行提取,這些方式忽略了文本語義信息和結(jié)構(gòu)信息,從而導(dǎo)致了術(shù)語的語義和結(jié)構(gòu)信息的缺失。即使能夠提取出來,展示出來的詞組也可能是語義不足或結(jié)構(gòu)化缺失,導(dǎo)致提取出來的術(shù)語沒有任何意義、語義相似度也相差極點(diǎn)。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種泰語術(shù)語提取的方法及裝置。為了對(duì)披露的實(shí)施例的一些方面有一個(gè)基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評(píng)述,也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍。其唯一目的是用簡單的形式呈現(xiàn)一些概念,以此作為后面的詳細(xì)說明的序言。
根據(jù)本發(fā)明實(shí)施例的第一方面,提供了一種泰語術(shù)語提取的方法,包括:
從待處理泰語文檔中提取與設(shè)定泰語詞典中詞語匹配的第一泰語詞語進(jìn)行存儲(chǔ),并將提取所述第一泰語詞語后的所述待處理泰語文檔確定為待識(shí)別泰語文檔;
對(duì)所述待識(shí)別泰語文檔進(jìn)行信息熵處理,識(shí)別出滿足信息熵處理參數(shù)刷選條件的第二泰語詞語;
將所述第一泰語詞語和第二泰語詞語確定為待提取泰語詞語,并統(tǒng)計(jì)所述待處理泰語文檔中每個(gè)待提取泰語詞語的出現(xiàn)頻數(shù);
將所述出現(xiàn)頻數(shù)滿足設(shè)定條件的所述待提取泰語詞語確定為泰語術(shù)語,并進(jìn)行提取。
本發(fā)明一實(shí)施例中,所述對(duì)所述待識(shí)別泰語文檔進(jìn)行信息熵處理,識(shí)別出滿足信息熵處理參數(shù)刷選條件的第二泰語詞語包括:
根據(jù)設(shè)定步長,對(duì)待識(shí)別泰語文檔進(jìn)行過濾分割處理,獲得包括至少一個(gè)切片泰文字符串的切片集合;
根據(jù)每個(gè)切片泰文字符串的信息熵處理參數(shù)值,對(duì)所述切片集合進(jìn)行刷選,形成詞匯輸出切片集合;
從所述詞匯輸出切片集合中,將設(shè)定個(gè)數(shù)的切片泰文字符串確定為識(shí)別出的第二泰語詞語。
本發(fā)明一實(shí)施例中,當(dāng)所述信息熵處理參數(shù)值包括出現(xiàn)頻數(shù)、凝固程度值、以及信息熵自由度值時(shí),所述根據(jù)每個(gè)切片泰文字符串的信息熵處理參數(shù)值,對(duì)所述切片集合進(jìn)行刷選,形成詞匯輸出切片集合包括:
根據(jù)出現(xiàn)頻數(shù)超過設(shè)定頻數(shù)的切片泰文字符串,形成第一待輸出切片集合;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于傳神聯(lián)合(北京)信息技術(shù)有限公司,未經(jīng)傳神聯(lián)合(北京)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710982767.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種領(lǐng)域術(shù)語抽取的方法
- 醫(yī)學(xué)術(shù)語識(shí)別方法及裝置
- 術(shù)語抽取方法和裝置
- 一種醫(yī)療術(shù)語知識(shí)庫完善的方法和裝置
- 一種構(gòu)建制造領(lǐng)域術(shù)語庫的方法及系統(tǒng)
- 術(shù)語更新方法以及相關(guān)設(shè)備、裝置
- 一種醫(yī)學(xué)術(shù)語系統(tǒng)的構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于多特征的術(shù)語檢索方法
- 一種術(shù)語替換方法及系統(tǒng)
- 一種標(biāo)準(zhǔn)術(shù)語確定方法、裝置及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





