[發明專利]基于統計模型的電力系統維吾爾語專用名詞提取方法在審
| 申請號: | 201210553916.0 | 申請日: | 2012-12-19 | 
| 公開(公告)號: | CN103885931A | 公開(公告)日: | 2014-06-25 | 
| 發明(設計)人: | 塔拉甫·加盤;王天軍;鄒帥 | 申請(專利權)人: | 新疆信息產業有限責任公司 | 
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28 | 
| 代理公司: | 烏魯木齊新科聯知識產權代理有限公司 65107 | 代理人: | 祁磊 | 
| 地址: | 830011 新疆維吾爾自治區*** | 國省代碼: | 新疆;65 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 基于 統計 模型 電力系統 維吾爾 專用 名詞 提取 方法 | ||
技術領域
本發明涉及維吾爾語信息技術領域,特別是基于統計模型的電力系統維吾爾語專用名詞提取方法。
背景技術
新疆維吾爾自治區是多民族居住的地區,自治區官方語言是漢語和維吾爾語。隨著社會向信息化社會發展,在西部大開發的推進下,維吾爾文的IT行業進入快速發展的時期。在新疆維吾爾自治區電力系統中維吾爾語專用名詞包括的各種電力設備,電路學術名詞和各種相關專用名詞。但是到目前為止還沒出現統一的標準和管理。
專用名詞提取是信息檢索的子領域,專用名詞提取的目標是根據資料從文本自動提取相關的專用名詞。1990年,美國DARPA組織在Message?Understaning?Conference中首次提出專用名詞提取的概念。在日本,代表性成果是IREX工具包。隨著社會的日益信息化,人民越來越強烈地希望用自然語言同計算機交流。自然語言理解是計算機科學中一個引人入勝,富有挑戰性的課題。從計算機科學特別是從人工智能的觀點看,自然語言處理的任務是建立一種計算機模型,這種計算機模型能夠給出像人那樣理解,分析并回答自然語言的結果。目前計算機的智能還遠沒有達到能夠像人一樣理解自然語言的水平,而且在可預見的將來也不會達到這樣的水平。因此,關于計算機對自然語言的理解一般是從實用的角度進行判斷的。如果計算機實現了人機會話,或機器翻譯,或自動文摘等語言信息處理功能,那么就認為計算機具備了自然語言理解的能力。
上世界90年代,在國外對專用名詞提取的研究和工作展開得比較多,研究成果廣泛地應用到各個行業和日常生活中。在國內,針對漢語的自然語言處理研究中已經一部分工作涉及專用名詞的提取。在新疆維吾爾自治區,由于地理和其他原因,信息化的起步開始得較晚,這方面的需求也沒有明顯地體現出來。本世界初十年,該地區的信息化加快,各個行業中自然語言處理的需求非常緊急。目前為止,沒有進行過關于專用名詞提取的研究,更沒有事實應用的現象。
發明內容
本發明的目的在于提供一種基于統計模型的電力系統維吾爾語專用名詞提取方法,電力系統專用名詞提取方法的應用廣泛。對給予的維吾爾文字資料進行詞法分析,分詞,根據預料的知識提取電力專用名詞,并輸出結果。應用范圍是電力行業專用詞典的編輯,電力行業預中自動提取專用名詞,大大減少人工方式分類和提取的時間,勞動力和成本。
本發明的目的是這樣實現的,一種基于統計模型的電力系統維吾爾語專用名詞提取方法,①首先輸入維吾爾語文本;②對維吾爾語文本進行分詞;③將由上述第②步得到的分詞結果進行人工標志,其中只對專用名詞進行標志,標志標準采用國家上普遍的IOB標志法;④累計標志的資料后,通過CRF++工具包來建立專用名詞模型。
本發明應用特征是:
1)??????????????目前為止,新疆維吾爾自治區電力行業中還沒有維吾爾語-漢語專用辭典,一部分原因歸于編輯辭典需要大量語料資源和人力,大部分工作需要進行人工方式來進行,這是該發明被提出的重要原因之一。
2)??????????????在新疆維吾爾自治區范圍內,少數民族語言的電表,維漢雙語營銷系統已經開始推廣和應用。該工作是少數民族語言電力業務標準化的有效保障,該成功的系統可以適應到其他少數民族語言,比如哈薩克語,柯爾克孜語等等。
3)??????????????在機器翻譯系統中需要實現類似的提取方法。針對某個行業的機器翻譯系統中,為了保證翻譯的質量,必須對專用單詞進行正確的處理,因此首先提取專用單詞并進行分析。該發明中的處理方法非常適合這種情況。
本發明工作的基礎是維吾爾語的分詞系統。該工作還需要建立電力相關的語料庫。這些基礎工作在專用名詞的提取中應用。專用名詞的提取中,首先用MeCab-Uyghur進行詞法分析,第二步人工標志相關電力行業的單詞,第三步通過CRF++建立語料模型,語料庫將用于在專用名詞提取的自動分析和提取中。
本發明為促進電力系統的標準化需要做相關的工作。根據黨中央的政策,國家電網不停地對地區電力系統進行標準化,即包括電力系統轉同名詞的標準化。在新疆維吾爾自治區,這項工作包括電力系統中維吾爾專用名字,哈薩克專用名詞和柯爾克孜專用名詞的規范和更新。此外隨著信息化的發展,各種少數民族語言的搜索引擎出現,該工作在對此有使用價值。除此之外,針對特定行業的機器翻譯系統中也需要引入專用名詞的提取和處理。考慮目前的情況,該工作助于首次試圖為電力系統維吾爾語專用單詞的標準化實現了專用名詞提取方法,逐步推廣到廣播,銀行和交通等的領域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新疆信息產業有限責任公司,未經新疆信息產業有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210553916.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高速機械蜂窩式仿形取種排種器
 - 下一篇:一種雙作用機械式精量穴播器
 





