[發(fā)明專利]泰語術(shù)語提取的方法及裝置有效

申請(qǐng)?zhí)枺?/td>	201710982767.2	申請(qǐng)日：	2017-10-20
公開（公告）號(hào)：	CN107704452B	公開（公告）日：	2020-12-22
發(fā)明（設(shè)計(jì)）人：	張凱;閆昊;車雙武	申請(qǐng)（專利權(quán)）人：	傳神聯(lián)合（北京）信息技術(shù)有限公司
主分類號(hào)：	G06F40/279	分類號(hào)：	G06F40/279
代理公司：	北京康盛知識(shí)產(chǎn)權(quán)代理有限公司 11331	代理人：	李曉芳
地址：	100000 北京市海淀區(qū)***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	泰語術(shù)語提取方法裝置
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了泰語術(shù)語提取的方法及裝置，屬于信息檢索技術(shù)領(lǐng)域。該方法包括：從待處理泰語文檔中提取與設(shè)定泰語詞典中詞語匹配的第一泰語詞語進(jìn)行存儲(chǔ)，并將提取所述第一泰語詞語后的所述待處理泰語文檔確定為待識(shí)別泰語文檔；對(duì)所述待識(shí)別泰語文檔進(jìn)行信息熵處理，識(shí)別出滿足信息熵處理參數(shù)刷選條件的第二泰語詞語；將所述第一泰語詞語和第二泰語詞語確定為待提取泰語詞語，并統(tǒng)計(jì)所述待處理泰語文檔中每個(gè)待提取泰語詞語的出現(xiàn)頻數(shù)；將所述出現(xiàn)頻數(shù)滿足設(shè)定條件的所述待提取泰語詞語確定為泰語術(shù)語，并進(jìn)行提取。這樣，可通過信息熵處理，從泰語文檔中識(shí)別并提取泰語術(shù)語，提高了泰語術(shù)語提取的效率和準(zhǔn)確率，以及泰語文檔的閱讀速度。

技術(shù)領(lǐng)域

本發(fā)明涉及信息檢索技術(shù)領(lǐng)域，特別涉及泰語術(shù)語提取的方法及裝置。

背景技術(shù)

隨著互聯(lián)網(wǎng)的飛速發(fā)展，越來越多的信息呈爆炸趨勢(shì)，信息量不斷上升。面對(duì)海量的大數(shù)據(jù)用戶如何把握某篇文章的主題思想是節(jié)約讀者時(shí)間、提高閱讀速度的關(guān)鍵問題。文章的術(shù)語作為文章的主題和作者思想的體現(xiàn)能夠有效解決問題。然而，若采取人工標(biāo)記方法進(jìn)行術(shù)語標(biāo)注，不僅浪費(fèi)時(shí)間和精力、效率低下，而且主觀能動(dòng)性較大。因此，術(shù)語的提取帶來了較為重要的現(xiàn)實(shí)意義。

泰語()，也稱傣語(Dai language)，是傣泰民族的語言，屬于東亞語系/漢藏語系的一種語言。全球有約6800萬人口使用泰語。泰語的文檔中，詞與詞之間不用標(biāo)點(diǎn)，不留空格，一句話從頭到尾連續(xù)不斷的拼寫，一般，以空兩個(gè)字母的間隔或句子當(dāng)中的小停頓表示一個(gè)句子。這樣，泰語術(shù)語的提取，很難像英語和漢語那樣，采用停用詞和分詞的方式，或者依靠詞頻、詞語長度、空格或標(biāo)點(diǎn)符號(hào)等方式進(jìn)行提取，這些方式忽略了文本語義信息和結(jié)構(gòu)信息，從而導(dǎo)致了術(shù)語的語義和結(jié)構(gòu)信息的缺失。即使能夠提取出來，展示出來的詞組也可能是語義不足或結(jié)構(gòu)化缺失，導(dǎo)致提取出來的術(shù)語沒有任何意義、語義相似度也相差極點(diǎn)。

發(fā)明內(nèi)容

本發(fā)明實(shí)施例提供了一種泰語術(shù)語提取的方法及裝置。為了對(duì)披露的實(shí)施例的一些方面有一個(gè)基本的理解，下面給出了簡單的概括。該概括部分不是泛泛評(píng)述，也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍。其唯一目的是用簡單的形式呈現(xiàn)一些概念，以此作為后面的詳細(xì)說明的序言。

根據(jù)本發(fā)明實(shí)施例的第一方面，提供了一種泰語術(shù)語提取的方法，包括：

從待處理泰語文檔中提取與設(shè)定泰語詞典中詞語匹配的第一泰語詞語進(jìn)行存儲(chǔ)，并將提取所述第一泰語詞語后的所述待處理泰語文檔確定為待識(shí)別泰語文檔；

對(duì)所述待識(shí)別泰語文檔進(jìn)行信息熵處理，識(shí)別出滿足信息熵處理參數(shù)刷選條件的第二泰語詞語；

將所述第一泰語詞語和第二泰語詞語確定為待提取泰語詞語，并統(tǒng)計(jì)所述待處理泰語文檔中每個(gè)待提取泰語詞語的出現(xiàn)頻數(shù)；

將所述出現(xiàn)頻數(shù)滿足設(shè)定條件的所述待提取泰語詞語確定為泰語術(shù)語，并進(jìn)行提取。

本發(fā)明一實(shí)施例中，所述對(duì)所述待識(shí)別泰語文檔進(jìn)行信息熵處理，識(shí)別出滿足信息熵處理參數(shù)刷選條件的第二泰語詞語包括:

根據(jù)設(shè)定步長，對(duì)待識(shí)別泰語文檔進(jìn)行過濾分割處理，獲得包括至少一個(gè)切片泰文字符串的切片集合；

根據(jù)每個(gè)切片泰文字符串的信息熵處理參數(shù)值，對(duì)所述切片集合進(jìn)行刷選，形成詞匯輸出切片集合；

從所述詞匯輸出切片集合中，將設(shè)定個(gè)數(shù)的切片泰文字符串確定為識(shí)別出的第二泰語詞語。

本發(fā)明一實(shí)施例中，當(dāng)所述信息熵處理參數(shù)值包括出現(xiàn)頻數(shù)、凝固程度值、以及信息熵自由度值時(shí)，所述根據(jù)每個(gè)切片泰文字符串的信息熵處理參數(shù)值，對(duì)所述切片集合進(jìn)行刷選，形成詞匯輸出切片集合包括：

根據(jù)出現(xiàn)頻數(shù)超過設(shè)定頻數(shù)的切片泰文字符串，形成第一待輸出切片集合；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于傳神聯(lián)合（北京）信息技術(shù)有限公司，未經(jīng)傳神聯(lián)合（北京）信息技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710982767.2/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：電鍍工藝的集成調(diào)度方法
下一篇：具有傳感器和機(jī)械學(xué)習(xí)部的作業(yè)管理系統(tǒng)

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】