日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種柬埔寨語組織機構名識別方法在審

專利信息
申請號: 201611157511.X 申請日: 2016-12-15
公開(公告)號: CN106776560A 公開(公告)日: 2017-05-31
發明(設計)人: 嚴馨;王若蘭;余正濤;郭劍毅 申請(專利權)人: 昆明理工大學
主分類號: G06F17/27 分類號: G06F17/27
代理公司: 暫無信息 代理人: 暫無信息
地址: 650093 云*** 國省代碼: 云南;53
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 柬埔寨 組織機構 識別 方法
【說明書】:

技術領域

發明涉及一種柬埔寨語組織機構名識別方法,特別是一種基于Tri-training算法的柬埔寨語組織機構名識別方法,屬于自然語言處理技術領域。

背景技術

柬埔寨語又稱高棉語,屬南亞語系孟高棉語族高棉語支語言,是柬埔寨現今的官方語言。由于我國與柬埔寨國家在各個領域之間的交流日趨頻繁,而目前,有關柬語文本的詞法分析工作比較匱乏,因此進行柬埔寨語的命名實體識別研究對柬埔寨的政治經濟分析、輿情把握等具有非常重要的意義。針對柬語的詞法分析工作,特別是柬語的命名實體識別更是需要投入大量精力進行研究。命名實體識別是信息處理中最為基礎的關鍵技術之一,其中,組織機構名識別是命名實體識別研究的重點,也是難點。組織機構名是泛指機關、團體等實體的名稱。雖然組織機構名沒有人名、地名那樣明確的特點和固定的用詞,但也有一定的組成特點。完整的組織機構名通常由一個或一個以上的機構名前部詞加上一個機構名后綴詞(如大學、協會等)組成。因此本發明只討論柬埔寨語組織機構名識別問題。

發明內容

本發明要解決的技術問題是提供一種柬埔寨語組織機構名識別方法,用于解決柬埔寨語組織機構名的識別、提高柬埔寨語組織機構名識別的準確率等問題。

本發明的技術方案是:一種柬埔寨語組織機構名識別方法,具體步驟如下:

Step1、首先對抽取的柬埔寨語篇章進行切分,切分后的句子進行分詞和詞性標注,通過人工校對,然后標注柬埔寨語命名實體,得到相當規模的柬埔寨語組織機構名語料;

Step2、通過標注的語料提取命名實體指示詞,構建指示詞庫,構建特征模板,通過改進的Tri-training算法學習得到組織機構名識別模型;

Step3、對選取的測試語料通過組織機構名識別模型進行訓練得到組織機構名的標注結果。

所述步驟Step1中組織機構名標注語料獲取的具體步驟如下:

Step1.1、首先利用爬蟲程序,從柬埔寨新聞網上爬取出網頁信息;

Step1.2、把爬取出的網頁信息,經過過濾處理,構建出柬埔寨語篇章語料庫;

Step1.3、通過柬埔寨語的句子結束符等將篇章切分為句子,形成柬埔寨語句子級語料庫,并把柬埔寨語句子級語料庫的語料存放到數據庫中;

Step1.4、從數據庫中取出柬埔寨語句子級的語料,通過柬埔寨語分詞和詞性標注系統進行分詞和詞性標注,并進行人工校對,得到含有正確結果的柬埔寨語詞性標注分詞庫,并把柬埔寨語詞性標注分詞庫的詞語存放到數據庫中;

Step1.5、根據柬埔寨語命名實體特點和標注規則,從數據庫中取出柬埔寨語詞性標注分詞庫的語料,通過人工標注柬埔寨語命名實體,得到含有正確標注結果的柬埔寨語命名實體語料庫,并把柬埔寨語命名實體標注語料庫的結果存放在數據庫中。

所述步驟Step2組織機構名識別模型構建的具體步驟:

Step2.1、從存放柬埔寨語命名實體標注語料庫的數據庫中取出已標注好的柬埔寨語命名實體的語料;

Step2.2、對Step2.1中的語料提取命名實體指示詞,構建命名實體指示詞庫,其中提取的命名實體包括人名、地名和組織機構名;

Step2.3、通過組織機構名的詞和詞性特種構建基本特征模板,基本特征模板描述了當前詞及其上下文中若干個詞的詞性;

Step2.4、通過Step2.3構建的基本特征模板進行特征組合構建復合特征模板,復合特征能夠利用遠距離的依存關系和豐富的上下文信息;

Step2.5、柬埔寨語組織機構名具有非常復雜的構成特點,這些復雜的特點為柬埔寨語組織機構名識別提供非常豐富的外部信息,因此基于這個特點,結合Step2.2構建的命名實體指示詞庫,構建實體特征模板;

Step2.6、根據分類器的特點,選取條件隨機場、支持向量機和最大熵模型三個不同的分類器作為Tri-training算法中的三個基分類器;

Step2.7、通過三個基分類器和Step2.3、Step2.4、Step2.5構建的特征模板,利用已標注語料和未標注語料通過改進的Tri-training算法學習得到組織機構名識別模型。

所述步驟Step1.2的具體步驟為:

Step1.2.1、對爬取的網頁信息進行有效的過濾,去除無效網頁;

Step1.2.2、對得到的有效網頁進行去重、去噪音的預處理操作。

所述步驟Step2.7的具體步驟為:

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611157511.X/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 99精品欧美一区二区三区美图| 精品福利一区二区| 久久免费视频一区| 在线国产精品一区| 国语对白老女人一级hd| 亚洲精品国产精品国自 | 中文字幕一区二区三区不卡| 国产精品中文字幕一区二区三区| 国产美女视频一区二区三区| 香蕉av一区| 91久久香蕉国产日韩欧美9色| 欧美一区亚洲一区| 91精品色| 欧美精品一卡二卡| 欧美色图视频一区| 国产一二区在线| 亚洲欧美国产中文字幕| 久久久中精品2020中文| 四季av中文字幕一区| 热re99久久精品国99热蜜月| 国产精品爽到爆呻吟高潮不挺| 特级免费黄色片| 欧美极品少妇videossex| 91嫩草入口| 国产精品不卡一区二区三区| 久久艹亚洲| 国产一区二区三区的电影| 国产欧美一二三区| 日日夜夜亚洲精品| 亚洲一级中文字幕| 日本午夜精品一区二区三区| 中文字幕一区二区在线播放| 激情久久久| 日韩av不卡一区| 精品美女一区二区三区| 美女被羞羞网站视频软件| 国产在线不卡一| 日本一区二区在线观看视频| 97久久国产亚洲精品超碰热| 亚洲欧美色一区二区三区| 亚洲欧美一区二区精品久久久| 99视频一区| 久久精品综合| 国产一区二区午夜| 亚洲国产精品一区在线| 日韩av在线电影网| 91国产在线看| 午夜激情在线| 91午夜在线| 免费久久99精品国产婷婷六月| 高清国产一区二区三区| 狠狠色噜噜狠狠狠狠69| 欧美亚洲精品suv一区| 国产美女三级无套内谢| 爽妇色啪网| 神马久久av| 国产女性无套免费看网站| 日本护士hd高潮护士| 欧美69精品久久久久久不卡| 久久国产欧美一区二区三区免费| 国产日韩欧美另类| 黄色国产一区二区| 欧美日韩一区二区三区在线播放| 欧洲在线一区| 一区二区三区四区视频在线| 国产精品免费一视频区二区三区| 亚洲欧美色图在线| 日本护士hd高潮护士| 日本五十熟hd丰满| 日韩精品免费一区| 国产伦精品一区二| 93精品国产乱码久久久| 99久久精品一区| 亚洲乱码一区二区三区三上悠亚| 日韩无遮挡免费视频| 日韩av免费网站| 欧美精品八区| 午夜av在线电影| 国产精一区二区三区| 久久国产欧美一区二区三区免费| 精品国产品香蕉在线| 夜色av网站|