[發明專利]一種基于統計和淺層語言分析的維吾爾文語義串抽取方法有效
| 申請號: | 201710252962.X | 申請日: | 2017-04-12 |
| 公開(公告)號: | CN107092675B | 公開(公告)日: | 2020-08-18 |
| 發明(設計)人: | 吐爾地·托合提;艾斯卡爾·艾木都拉;米吉提·阿不里米提;瑪依熱·依布拉;熱合木·馬合木提;哈妮克孜·伊拉洪 | 申請(專利權)人: | 新疆大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/289;G06F40/30 |
| 代理公司: | 西安研創天下知識產權代理事務所(普通合伙) 61239 | 代理人: | 郭璐 |
| 地址: | 830046 新疆維*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 統計 語言 分析 維吾爾文 語義 抽取 方法 | ||
1.一種基于統計和淺層語言分析的維吾爾文語義串抽取方法,其特征在于,所述方法包括;
步驟1確定文本索引結構及定義模式規則:
確定包括詞典、一級索引、二級索引的三層索引結構;定義文本中的可信頻繁模式;定義頻繁模式發現中的語言規則;
步驟2頻繁模式發現;
大規模文本中維吾爾文頻繁模式發現步驟具體包括:
步驟2A建索引;
對于經過預處理的文本集,首先按單詞在文本中出現的順序建立詞典,然后對于生成的單詞ID序列建詞索引;
步驟2B串擴展及頻繁模式發現;
讓所有單詞ID進入一個隊列中,然后根據每個單詞的索引信息從每個單詞擴展得到其二詞或三詞串,讓該單詞出隊并將新產生的擴展串入隊,繼續從n詞串擴展到n+1詞或n+2詞串,反復迭代,直到隊列為空;
步驟3串完整性評價及語義串抽?。?/p>
根據上下文鄰接特征來判斷每一個語義串候選的結構完整性,用公式(一)為每一個候選語義串賦權重:
AEweight(S)=min(LAE(S),RAE(S))
(一)
其中,AEweight(S)是串S的鄰接熵權重,LAE(S)是串S的左鄰接熵,RAE(S)是串S的右鄰接熵,左鄰接熵、右鄰接熵按公式(二)計算:
其中,m是串S的左鄰接種類數,ni是串S的第i個左鄰接的頻次,所有左鄰接頻次總和為N,計算鄰接特征量所需要的全部信息在它們被發現時記錄好并存入索引中,依次輸出鄰接特征量達到閾值的頻繁模式,即為最終抽取到的語義串;
所述步驟1中的可信頻繁模式具體為:
設S=w1w2…wn是一個長度為n的維吾爾文單詞串,以空格隔開的n個單詞序列,T=S1#S2#…Sm#是由m個單詞串構成的文本語料,#標志文本中的各種標點符號;
定義1:對于單詞串S=w1w2…wn,如果文本語料中至少存在兩個位置pos1和pos2,并使得
則S稱為語料T中的一個模式,也稱為重復串;
定義2:根據事先設定的各個參數閾值,如果Support(S)>minsup,minsup為最小支持度或Frequency(S)>minFreq,minFreq為最小出現頻次,則稱S為語料T中的頻繁模式,如Confidence(S)>minconf,minconf為最小置信度,則可確定S為可信頻繁模式;
設wi-1wi是語料T中維吾爾文詞對,wi-1是上文,wi是下文,觀察候選頻繁模式S=(wi-1wi)是否為可信頻繁模式時,將Frequency(S)>2,minFreq=2的模式都選為頻繁模式,再評價wi-1→wi的置信度Confidence(wi-1→wi)來選取可信頻繁模式;
置信度Confidence(wi-1→wi)是指上文wi-1出現的情況下,其下文出現wi的后驗概率,是對單詞關聯wi-1→wi的準確度的衡量,當Confidence(wi-1→wi)>minconf時,可確定S=(wi-1wi)是一個可信頻繁模式,按公式(三)計算:
定義3:逆置信度是指單詞關聯wi-1→wi的下文wi出現的情況下,其上文是wi-1的條件概率,按公式(四)計算:
定義4:對于語料T中的一個頻繁模式S,如Confidence(S)>minconf或R-Confidence(S)>minconf,則可確定S為可信頻繁模式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新疆大學,未經新疆大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710252962.X/1.html,轉載請聲明來源鉆瓜專利網。





