[發(fā)明專利]一種基于最大熵的越南語交叉歧義消岐方法有效
| 申請?zhí)枺?/td> | 201610063602.0 | 申請日: | 2016-01-29 |
| 公開(公告)號: | CN105740412B | 公開(公告)日: | 2020-07-10 |
| 發(fā)明(設(shè)計)人: | 余正濤;劉艷超;郭劍毅;毛存禮;線巖團(tuán);陳瑋 | 申請(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F40/289 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 最大 越南語 交叉 歧義 方法 | ||
1.一種基于最大熵的越南語交叉歧義消岐方法,其特征在于:所述基于最大熵的越南語交叉歧義消岐方法的具體步驟如下:
Step1、首先對形成的越南語交叉歧義字段庫中的越南語交叉歧義字段語料進(jìn)行消歧建模,得到越南語最大熵交叉歧義消歧模型;
Step2、從越南語交叉歧義字段語料中隨機(jī)選取測試語料通過已建好的越南語最大熵交叉歧義消歧模型進(jìn)行消歧,得到消歧的參數(shù)序列;
所述步驟Step1中消歧建模的具體步驟如下:
Step1.1、首先利用爬蟲程序,從互聯(lián)網(wǎng)上爬取出網(wǎng)頁信息;
Step1.2、把爬取出的網(wǎng)頁信息,經(jīng)過過濾處理,構(gòu)建出越南語文本語料庫;
Step1.3、根據(jù)越南語分詞工具進(jìn)行越南語文本語料庫的語料分詞,并進(jìn)行人工校對,形成越南語分詞句子級語料庫,并把越南語分詞句子級語料庫的語料存放到數(shù)據(jù)庫中;
Step1.4、從數(shù)據(jù)庫中取出已分好詞的越南語句子級的語料,然后抽取越南語的歧義字段,形成越南語交叉歧義字段庫,并進(jìn)行人工切分,得到含有正確切分結(jié)果的越南語交叉歧義字段庫,并把越南語交叉歧義字段庫的字段存放到數(shù)據(jù)庫中;
Step1.5、根據(jù)構(gòu)詞特點(diǎn),從步驟Step1.4中越南語交叉歧義字段庫提取越南語交叉歧義字段特征,提取的越南語交叉歧義字段特征包括統(tǒng)計特征、交叉歧義的上下文特征、交叉歧義字段內(nèi)部特征;
Step1.6、根據(jù)提取的越南語交叉歧義字段特征,制定最大熵模型中所需要的基本特征模板訓(xùn)練樣式;
Step1.7、把Step1.4中抽取用于訓(xùn)練的含有正確切分結(jié)果的越南語交叉歧義字段,根據(jù)最大熵模型中所需要的基本特征模板訓(xùn)練樣式,用最大熵模型進(jìn)行訓(xùn)練,得到越南語最大熵交叉歧義消歧模型;
所述步驟Step1.4的具體步驟:
Step1.4.1、從存有越南語分詞句子級語料庫的數(shù)據(jù)庫中取出已分好詞的越南語句子級的語料;
Step1.4.2、對Step1.4.1中的語料進(jìn)行詞典匹配分詞;分別使用正向和逆向最大匹配對越南語句子進(jìn)行分詞,然后將分詞結(jié)果分別存到數(shù)組A和B;
Step1.4.3、對于Step1.4.2中數(shù)組A和B進(jìn)行判斷數(shù)組長度;判斷數(shù)組A和數(shù)組B的長度,如果兩數(shù)組長度不相等,則輸入下一條句子,執(zhí)行Step1.4.2步;如果相等,則執(zhí)行Step1.4.4步;
Step1.4.4、判斷數(shù)組元素;判斷數(shù)組A和數(shù)組B對應(yīng)元素是否相同,如果相同,則輸入下一條句子執(zhí)行Step1.4.2步;如果不同,則執(zhí)行Step1.4.5步;
Step1.4.5、抽取歧義片段;如果數(shù)組A和數(shù)組B第i和i+1處的對應(yīng)元素不相同且i+2相同,則取出數(shù)組A或數(shù)組B中的i和i+1處的元素為歧義片段,取出、拼接并保存到List集合中;
Step1.4.6、通過人工進(jìn)行Step1.4.5中List集合交叉歧義字段語料進(jìn)行標(biāo)注劃分,得到正確切分結(jié)果的越南語交叉歧義字段庫,并把越南語交叉歧義字段庫的字段存放到數(shù)據(jù)庫中。
2.根據(jù)權(quán)利要求1所述的基于最大熵的越南語交叉歧義消岐方法,其特征在于:所述步驟Step1.2的具體步驟為:
Step1.2.1、對爬取的網(wǎng)頁信息進(jìn)行過濾,去除無效網(wǎng)頁;
Step1.2.2、對得到的有效網(wǎng)頁進(jìn)行去重、去噪音預(yù)處理操作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610063602.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于條件隨機(jī)場的越南語分詞方法
- 一種基于條件隨機(jī)場和轉(zhuǎn)換學(xué)習(xí)越南語組塊方法
- 一種基于最大熵的越南語交叉歧義消岐方法
- 一種基于MST算法的越南語依存樹庫構(gòu)建方法
- 一種融合越南語語法特征的短語樹到依存樹的轉(zhuǎn)換方法
- 一種融合了越南語語言特點(diǎn)的PCFG模型的越南語短語樹庫構(gòu)建方法
- 基于組塊的越南語短語樹構(gòu)建方法
- 基于條件隨機(jī)場的越南語組合詞消歧方法
- 一種越南語教學(xué)評分方法及其所應(yīng)用的越南語學(xué)習(xí)平臺
- 基于中文信息和越南語句法指導(dǎo)的越南語新聞事件檢測方法





