[發明專利]一種基于最大熵分類模型與泰語語法規則校正的泰語句子切分方法在審
| 申請號: | 201810209087.1 | 申請日: | 2018-03-14 |
| 公開(公告)號: | CN108491383A | 公開(公告)日: | 2018-09-04 |
| 發明(設計)人: | 王紅斌;沈強;線巖團;余正濤;郭劍毅;文永華 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 句子 分類模型 語法規則 最大熵 校正 自然語言處理技術 句子邊界識別 機器翻譯 大型語料庫 句子相似度 促進作用 分類效果 快速構建 命名實體 信息抽取 信息檢索 中空 研究 分類 支撐 | ||
1.一種基于最大熵分類模型與泰語語法規則校正的泰語句子切分方法,其特征在于:所述方法的具體步驟如下:
Step1、對泰語句子切分語料采集和預處理,構建出泰語文本語料庫;對泰語文本語料庫進行泰語分詞和詞性標注,構建泰語句子切分研究所需的結構化泰語文本語料庫;
Step2、設b∈{sb,nsb}為結構化泰語文本語料庫中泰語文本里空格符的標記值,sb標記泰語句末空格符,nsb標記非泰語句末空格符;然后根據結構化泰語文本語料庫中泰語文本空格符周圍的上下文情況,選擇上下文窗口windows=t,并依據上下文窗口大小制定泰語文本中空格符上下文的抽取模板S和泰語文本空格符上下文內容的取值規范;其中,t表示窗口大小;
Step3、根據泰語文本中句子邊界的相關語言特點,制定代表泰語空格符約束條件的二值約束特征函數集合F=(f1(v,b),f2(v,b),…,fj(v,b),…,fk(v,b));其中,k為二值約束特征函數的總數,v是空格符的上下文向量,b是空格符的類別;
Step4、根據泰語文本中空格符上下文的抽取模板S對結構化泰語文本語料庫中泰語文本的空格符上下文進行抽取,獲得泰語文本中空格符上下文c=(t1,t2,…,ti,…,tm),ti為泰語空格符上下文抽取模板的第i項內容,m為泰語文本空格符上下文抽取模板的長度,從而在結構化泰語文本語料庫的基礎上獲得泰語文本空格符上下文的集合C={c1,c2,…,ci,…,cn},n為結構化泰語文本語料庫中所有空格符的總數;
Step5、根據制定的泰語文本空格符上下文內容的取值規范,對結構化泰語文本語料庫中所有的空格符上下文c進行數字化抽象和數值規范,獲得泰語文本中每一個空格符的上下文向量v={d1,d2,…,di,…,dm},從而構建結構化泰語文本語料庫中關于泰語文本空格符的上下文向量空間V={v1,v2,…,vi,…,vn};
Step6、按照訓練集、測試集的比例,對泰語文本空格符的上下文向量空間進行隨機抽樣,劃分出關于泰語文本空格符上下文的訓練集向量空間Vtrain和測試集向量空間Vtest,Vtrain+Vtest=V;
Step7、在訓練集向量空間Vtrain上,使用最大熵分類算法進行最大熵分類模型訓練,從而獲得能對泰語文本中空格符進行分類的最大熵分類模型;
Step8、使用最大熵分類模型對測試集向量空間Vtest中的所有樣本進行分類,從而獲得測試集向量空間中所有樣本的待校正泰語標記序列;
Step9、構建對待校正泰語標記序列進行校正的正則表達式規則集;
Step10、使用所構建的正則表達式規則集對測試集向量空間中所有樣本的待校正泰語標記序列進行規則校正,從而獲得泰語文本中關于句子切分的最終標記序列集合,實現泰語句子的切分。
2.根據權利要求1所述的基于最大熵分類模型與泰語語法規則校正的泰語句子切分方法,其特征在于:所述步驟Step1具體為:
Step1.1、利用網絡爬蟲技術,從互聯網上收集泰語新聞和電子書籍的泰語文本,并對獲得的泰語文本進行過濾、去重和去噪音的預處理操作,從而構建出泰語文本語料庫;
Step1.2、通過泰語分詞工具和泰語詞性標注工具對泰語文本語料庫進行泰語分詞和詞性標注,并進行人工校對,從而構建泰語句子切分研究所需的結構化泰語文本語料庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810209087.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種半監督生物醫學文本語義消歧方法
- 下一篇:一種專利申請文件的輔助撰寫系統





