[發明專利]一種柬埔寨語組織機構名識別方法在審
| 申請號: | 201611157511.X | 申請日: | 2016-12-15 |
| 公開(公告)號: | CN106776560A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 嚴馨;王若蘭;余正濤;郭劍毅 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 柬埔寨 組織機構 識別 方法 | ||
1.一種柬埔寨語組織機構名識別方法,其特征在于:具體步驟如下:
Step1、首先對抽取的柬埔寨語篇章進行切分,切分后的句子進行分詞和詞性標注,通過人工校對,然后標注柬埔寨語命名實體,得到相當規模的柬埔寨語組織機構名語料;
Step2、通過標注的語料提取命名實體指示詞,構建指示詞庫,構建特征模板,通過改進的Tri-training算法學習得到組織機構名識別模型;
Step3、對選取的測試語料通過組織機構名識別模型進行訓練得到組織機構名的標注結果。
2.根據權利要求1所述的柬埔寨語組織機構名識別方法,其特征在于:所述步驟Step1中組織機構名標注語料獲取的具體步驟如下:
Step1.1、首先利用爬蟲程序,從柬埔寨新聞網上爬取出網頁信息;
Step1.2、把爬取出的網頁信息,經過過濾處理,構建出柬埔寨語篇章語料庫;
Step1.3、通過柬埔寨語的句子結束符將篇章切分為句子,形成柬埔寨語句子級語料庫,并把柬埔寨語句子級語料庫的語料存放到數據庫中;
Step1.4、從數據庫中取出柬埔寨語句子級的語料,通過柬埔寨語分詞和詞性標注系統進行分詞和詞性標注,并進行人工校對,得到含有正確結果的柬埔寨語詞性標注分詞庫,并把柬埔寨語詞性標注分詞庫的詞語存放到數據庫中;
Step1.5、根據柬埔寨語命名實體特點和標注規則,從數據庫中取出柬埔寨語詞性標注分詞庫的語料,通過人工標注柬埔寨語命名實體,得到含有正確標注結果的柬埔寨語命名實體語料庫,并把柬埔寨語命名實體標注語料庫的結果存放在數據庫中。
3.根據權利要求1所述的柬埔寨語組織機構名識別方法,其特征在于:所述步驟Step2組織機構名識別模型構建的具體步驟:
Step2.1、從存放柬埔寨語命名實體標注語料庫的數據庫中取出已標注好的柬埔寨語命名實體的語料;
Step2.2、對Step2.1中的語料提取命名實體指示詞,構建命名實體指示詞庫,其中提取的命名實體包括人名、地名和組織機構名;
Step2.3、通過組織機構名的詞和詞性特種構建基本特征模板,基本特征模板描述了當前詞及其上下文中若干個詞的詞性;
Step2.4、通過Step2.3構建的基本特征模板進行特征組合構建復合特征模板,復合特征能夠利用遠距離的依存關系和豐富的上下文信息;
Step2.5、柬埔寨語組織機構名具有非常復雜的構成特點,這些復雜的特點為柬埔寨語組織機構名識別提供非常豐富的外部信息,因此基于這個特點,結合Step2.2構建的命名實體指示詞庫,構建實體特征模板;
Step2.6、根據分類器的特點,選取條件隨機場、支持向量機和最大熵模型三個不同的分類器作為Tri-training算法中的三個基分類器;
Step2.7、通過三個基分類器和Step2.3、Step2.4、Step2.5構建的特征模板,利用已標注語料和未標注語料通過改進的Tri-training算法學習得到組織機構名識別模型。
4.根據權利要求2所述的柬埔寨語組織機構名識別方法,其特征在于:所述步驟Step1.2的具體步驟為:
Step1.2.1、對爬取的網頁信息進行有效的過濾,去除無效網頁;
Step1.2.2、對得到的有效網頁進行去重、去噪音的預處理操作。
5.根據權利要求3所述的柬埔寨語組織機構名識別方法,其特征在于:所述步驟Step2.7的具體步驟為:
Step2.7.1、對原始的Tri-training算法中對于基分類器的選擇進行改進,將原始算法中的單個分類器通過對已標注語料的可重復采樣來訓練出三個不同的分類器模型,改進為通過三個不同的分類器對已標注語料進行可重復采樣來訓練出三個不同的分類器模型;
Step2.7.2、通過Step2.7.1得到的三個分類器模型對未標注語料進行標注,并按照最優化樣本選擇策略選擇樣本子集,生成三個分類器的新訓練集,并重新訓練模型,直到未標注語料為空;
Step2.7.3、通過Step2.7.2得到聯合分類器生成的模型按投票規則對測試語料進行分類標注,最終生成組織機構名標注結果。
6.根據權利要求3所述的柬埔寨語組織機構名識別方法,其特征在于:所述步驟Step2.4中由兩個基本特征模板組合構成的復合特征模板。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611157511.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文本語義相似度計算的方法及裝置
- 下一篇:車聯網系統新聞正文提取方法





