[發明專利]一種基于統計和淺層語言分析的維吾爾文語義串抽取方法有效

申請號：	201710252962.X	申請日：	2017-04-12
公開（公告）號：	CN107092675B	公開（公告）日：	2020-08-18
發明（設計）人：	吐爾地·托合提;艾斯卡爾·艾木都拉;米吉提·阿不里米提;瑪依熱·依布拉;熱合木·馬合木提;哈妮克孜·伊拉洪	申請（專利權）人：	新疆大學
主分類號：	G06F16/31	分類號：	G06F16/31;G06F40/289;G06F40/30
代理公司：	西安研創天下知識產權代理事務所(普通合伙) 61239	代理人：	郭璐
地址：	830046 新疆維***	國省代碼：	新疆;65
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于統計語言分析維吾爾文語義抽取方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于統計和淺層語言分析的維吾爾文語義串抽取方法，屬于少數民族語言語義串抽取技術領域。目的是提供一種基于統計和淺層語言分析的維吾爾文語義串快速抽取方法。采用一種多層動態索引結構為大規模文本建詞索引，然后是結合維吾爾文詞間關聯規則采用一種改進的n元遞增算法進行詞串擴展并發現文本中的可信頻繁模式，最終依次判斷頻繁模式串結構完整性從而得到語義串。通過在不同規模的語料上實驗發現，此方法可行有效，能夠應用到維吾爾文文本挖掘多個領域。本發明提出的語義串抽取方法不僅可以應用到維吾爾文文本挖掘中，還能應用到哈薩克文、柯爾克孜文等同語系語言文本挖掘中。

技術領域

本發明具體涉及一種基于統計和淺層語言分析的維吾爾文語義串抽取方法，屬于少數民族語言語義串抽取技術領域。

背景技術

關于語義串的識別和抽取，國內外很早就有學著開展一些研究工作。

可以定義語義串為：是文本中上下文任意多個連續字符(字或詞)的穩定組合，其語義完整及獨立的，能作為文本中線索詞，包括人名、地名、機構名等命名實體，還有實詞(科學家)、新詞(自貿區)、詞組或短語(地方政府陽光舉債)、領域術語(人感染H7N9確診病例)、固定搭配(嚴格監管)等。

語義串抽取是文本處理中的基礎技術，可以直接應用到文本挖掘多個領域中。如應用到分詞中，可以提高新詞識別效率。應用到搜索引擎中索引詞的抽取、查詢詞的修正、以及相關搜索分析中，可以達到索引壓縮目的的同時也可以大大提高搜索效率。應用到網絡輿情系統中，可以將語義串作為主要的輿情線索進行網絡輿情熱點的有效發現和跟蹤。應用到本發明中，以語義串作為特征表征文本，可以構造泛化能力更強、更經湊的文本模型，這就會明顯提高聚類和分類準確率。除此之外，專業術語抽取及領域詞典編撰等更多的領域，語義串的抽取仍能作為有效手段。

隨著維吾爾文文本挖掘更多領域研究工作的深入開展，維吾爾文現有分詞方法開始暴露出其潛在的不足和缺陷，維吾爾文語義串抽取方法的研究變得為尤為必要和迫切。

發明內容

因此，本發明目的是為解決現有技術中的上述問題，提出了一種基于統計和淺層語言分析的維吾爾文語義串抽取方法，并通過實驗驗證其可行性和有效性。

具體的，本發明的方法包括：

步驟1 確定文本索引結構及定義模式規則：

確定包括詞典、一級索引、二級索引的三層索引結構；定義文本中的可信頻繁模式；定義頻繁模式發現中的語言規則；

步驟2 頻繁模式發現；

大規模文本中維吾爾文頻繁模式發現步驟具體包括：

步驟2A 建索引；

對于經過預處理的文本集，首先按單詞在文本中出現的順序建立詞典，然后對于生成的單詞ID序列建詞索引；

步驟2B 串擴展及頻繁模式發現；

讓所有單詞ID進入一個隊列中，然后根據每個單詞的索引信息從每個單詞擴展得到其二詞或三詞串，讓該單詞出隊并將新產生的擴展串入隊，繼續從n詞串擴展到n+1詞或n+2詞串，反復迭代，直到隊列為空；