日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種柬埔寨語組織機構名識別方法在審

專利信息
申請號: 201611157511.X 申請日: 2016-12-15
公開(公告)號: CN106776560A 公開(公告)日: 2017-05-31
發明(設計)人: 嚴馨;王若蘭;余正濤;郭劍毅 申請(專利權)人: 昆明理工大學
主分類號: G06F17/27 分類號: G06F17/27
代理公司: 暫無信息 代理人: 暫無信息
地址: 650093 云*** 國省代碼: 云南;53
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 柬埔寨 組織機構 識別 方法
【權利要求書】:

1.一種柬埔寨語組織機構名識別方法,其特征在于:具體步驟如下:

Step1、首先對抽取的柬埔寨語篇章進行切分,切分后的句子進行分詞和詞性標注,通過人工校對,然后標注柬埔寨語命名實體,得到相當規模的柬埔寨語組織機構名語料;

Step2、通過標注的語料提取命名實體指示詞,構建指示詞庫,構建特征模板,通過改進的Tri-training算法學習得到組織機構名識別模型;

Step3、對選取的測試語料通過組織機構名識別模型進行訓練得到組織機構名的標注結果。

2.根據權利要求1所述的柬埔寨語組織機構名識別方法,其特征在于:所述步驟Step1中組織機構名標注語料獲取的具體步驟如下:

Step1.1、首先利用爬蟲程序,從柬埔寨新聞網上爬取出網頁信息;

Step1.2、把爬取出的網頁信息,經過過濾處理,構建出柬埔寨語篇章語料庫;

Step1.3、通過柬埔寨語的句子結束符將篇章切分為句子,形成柬埔寨語句子級語料庫,并把柬埔寨語句子級語料庫的語料存放到數據庫中;

Step1.4、從數據庫中取出柬埔寨語句子級的語料,通過柬埔寨語分詞和詞性標注系統進行分詞和詞性標注,并進行人工校對,得到含有正確結果的柬埔寨語詞性標注分詞庫,并把柬埔寨語詞性標注分詞庫的詞語存放到數據庫中;

Step1.5、根據柬埔寨語命名實體特點和標注規則,從數據庫中取出柬埔寨語詞性標注分詞庫的語料,通過人工標注柬埔寨語命名實體,得到含有正確標注結果的柬埔寨語命名實體語料庫,并把柬埔寨語命名實體標注語料庫的結果存放在數據庫中。

3.根據權利要求1所述的柬埔寨語組織機構名識別方法,其特征在于:所述步驟Step2組織機構名識別模型構建的具體步驟:

Step2.1、從存放柬埔寨語命名實體標注語料庫的數據庫中取出已標注好的柬埔寨語命名實體的語料;

Step2.2、對Step2.1中的語料提取命名實體指示詞,構建命名實體指示詞庫,其中提取的命名實體包括人名、地名和組織機構名;

Step2.3、通過組織機構名的詞和詞性特種構建基本特征模板,基本特征模板描述了當前詞及其上下文中若干個詞的詞性;

Step2.4、通過Step2.3構建的基本特征模板進行特征組合構建復合特征模板,復合特征能夠利用遠距離的依存關系和豐富的上下文信息;

Step2.5、柬埔寨語組織機構名具有非常復雜的構成特點,這些復雜的特點為柬埔寨語組織機構名識別提供非常豐富的外部信息,因此基于這個特點,結合Step2.2構建的命名實體指示詞庫,構建實體特征模板;

Step2.6、根據分類器的特點,選取條件隨機場、支持向量機和最大熵模型三個不同的分類器作為Tri-training算法中的三個基分類器;

Step2.7、通過三個基分類器和Step2.3、Step2.4、Step2.5構建的特征模板,利用已標注語料和未標注語料通過改進的Tri-training算法學習得到組織機構名識別模型。

4.根據權利要求2所述的柬埔寨語組織機構名識別方法,其特征在于:所述步驟Step1.2的具體步驟為:

Step1.2.1、對爬取的網頁信息進行有效的過濾,去除無效網頁;

Step1.2.2、對得到的有效網頁進行去重、去噪音的預處理操作。

5.根據權利要求3所述的柬埔寨語組織機構名識別方法,其特征在于:所述步驟Step2.7的具體步驟為:

Step2.7.1、對原始的Tri-training算法中對于基分類器的選擇進行改進,將原始算法中的單個分類器通過對已標注語料的可重復采樣來訓練出三個不同的分類器模型,改進為通過三個不同的分類器對已標注語料進行可重復采樣來訓練出三個不同的分類器模型;

Step2.7.2、通過Step2.7.1得到的三個分類器模型對未標注語料進行標注,并按照最優化樣本選擇策略選擇樣本子集,生成三個分類器的新訓練集,并重新訓練模型,直到未標注語料為空;

Step2.7.3、通過Step2.7.2得到聯合分類器生成的模型按投票規則對測試語料進行分類標注,最終生成組織機構名標注結果。

6.根據權利要求3所述的柬埔寨語組織機構名識別方法,其特征在于:所述步驟Step2.4中由兩個基本特征模板組合構成的復合特征模板。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611157511.X/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 色一情一乱一乱一区免费网站| 国产一区在线精品| 色综合欧美亚洲国产| 天天干狠狠插| 精品久久久影院| 欧美日韩三区二区| 91性高湖久久久久久久久_久久99| 国产三级在线视频一区二区三区| 国产精品麻豆99久久久久久| 国产精品电影一区| 国产超碰人人模人人爽人人添| 国产69精品99久久久久久宅男| 中文字幕制服丝袜一区二区三区| 国产麻豆一区二区三区精品| 99久久婷婷国产精品综合| 午夜剧场一级片| 91久久精品国产亚洲a∨麻豆| 一区二区欧美精品| 狠狠综合久久av一区二区老牛| 国产日韩欧美三级| 色综合久久久久久久粉嫩| 一本大道久久a久久精品| 欧美一区二区三区在线免费观看| 中文丰满岳乱妇在线观看| 99国产精品永久免费视频| 午夜av资源| 日本三级香港三级网站| 欧美一区二区久久久| 久久午夜鲁丝片| 88国产精品视频一区二区三区| 国产麻豆91视频| 亚洲福利视频二区| 日本护士hd高潮护士| 国产精品久久久爽爽爽麻豆色哟哟| 国产白丝一区二区三区| 狠狠色丁香久久婷婷综合丁香| 久久九九国产精品| 国产伦精品一区二区三区免费优势| 久爱精品视频在线播放| 国产专区一区二区| 欧美日韩国产一二| xxxx18日本护士高清hd| 国产精品一区二区在线观看免费 | 久久久久国产精品嫩草影院| 99精品国产免费久久| 日本精品99| sb少妇高潮二区久久久久| 亚洲精品卡一| 国产在线干| 国语精品一区| 日本白嫩的18sex少妇hd| 99久精品视频| 日本精品99| 日韩亚洲精品在线观看| 国产亚洲精品久久yy50| 国产精品国精产品一二三区| 91高跟紫色丝袜呻吟在线观看| 99久热精品| 日日夜夜亚洲精品| 欧美日韩久久一区| 性刺激久久久久久久久九色| 国产一区二区免费在线| 国产精品视频免费看人鲁| 精品国产一区二| 亚洲福利视频二区| 国产精品欧美一区二区三区| 中文字幕理伦片免费看| 97久久国产亚洲精品超碰热 | 国产欧美一区二区精品久久| 国产精品高潮呻| 国产91热爆ts人妖系列| 91亚洲欧美日韩精品久久奇米色| 久久久久亚洲精品视频| 性色av色香蕉一区二区| 香蕉av一区二区| 国产一区二三| 欧洲国产一区| 狠狠躁日日躁狂躁夜夜躁av| 欧美在线视频一二三区| 私人影院av| 欧美一级不卡| 色婷婷噜噜久久国产精品12p |