[發明專利]一種通用自動術語提取方法有效
| 申請號: | 202110364472.5 | 申請日: | 2021-04-05 |
| 公開(公告)號: | CN112966508B | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 胡喬;徐恩嶠 | 申請(專利權)人: | 集智學園(北京)科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/268;G06F40/211;G06F40/216;G06F16/35 |
| 代理公司: | 江蘇海越律師事務所 32402 | 代理人: | 唐小紅 |
| 地址: | 100000 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通用 自動 術語 提取 方法 | ||
1.一種通用自動術語提取方法,其特征在于,包括一套詞語屬性闡釋框架和一套術語提取流程,詞語屬性闡釋框架有3個模塊:從語料到窗口、從窗口到短語、從短語到術語,分別對應術語提取流程中的語料預處理、候選詞篩選、術語提取3個步驟;
所述術語提取流程3個步驟如下:
1)預處理:
1-1)語料清洗:
去除語料中的格式和公式文本;
語料清洗步驟如下:
(1)使用正則表達式去除語料中的html標簽;
(2)使用正則表達式去除語料中的數學公式;
1-2)分詞:
采用相應語言的分詞工具進行分詞;
1-3)詞性標注及其校正:
采用相應的詞性標注工具,按詞語序列標注詞性;而后統計長度為2的滑動窗口的詞性,并將同一詞語序列的不同詞性標注校正為出現次數最大者;
詞性校正步驟如下:
(1)用分詞的結果序列做第一輪詞性標注;
(2)取長度為2的滑動窗口,統計每個滑動窗口出現的詞性序列,將滑動窗口的詞性序列歸并到出現次數最多的序列;
(3)用長度為2的滑動窗口再次遍歷原語料,使用歸并后的詞性序列校正第一輪標注的詞性;
1-4)詞形還原
對具有不同時態和語態的西文語言,應結合詞語的詞形進行還原;
詞形還原的步驟:英文的名詞復數還原為單數,形容詞比較級和最高級還原為原形,其他詞形不做處理;中文無需進行詞形還原;
2)候選詞篩選:
2-1)頻次分析與窗口獲取;
統計語料分詞后的總詞數,統計不同長度的滑動窗口數;
選擇一個截斷詞頻,放棄該截斷詞頻以下的窗口;另外,不同長度的滑動窗口自下而上搜索獲得,
以(wm,...,wn)表示長度為n-m+1(n≥m)的滑動窗口,而#(wm,...,wn)表示滑動窗口(wm,...,wn)在語料中出現的頻次;若n>m,則顯然有:
#(wm+1,...,wn),#(wm,...,wn-1)
≥
#(wm,...,wn)
≥
#(wm-1,...,wn),#(wm,...,wn+1)
對于給定語料中的任意一對存在包含關系的滑動窗口,恒有#母序列
≥#子序列成立,且易知等號在常規文本中難以成立,因此當截斷詞頻大于1時,采用自動搜索算法,不斷增加長度,到某級不再出現詞頻滿足條件的序列則自動停止搜索;
窗口獲取的步驟:
(1)分別遍歷語料,獲取長度為1到n的所有窗口;
(2)統計計每個窗口出現的頻數,選取窗口數量在設定詞頻閾值之上的部分;
2-2)碎片篩除;
由于滑動窗口法會得到無法使用凝合度方法過濾的一些詞語碎片或者不穩定搭配,需要進行搭配分析以過濾這些窗口;若ABC的詞頻與AB的詞頻近似相等,那么,當出現AB時,一定有C隨后出現,AB將不再被單獨考慮為一個詞組;至于是否將ABC作為詞組,則要相應地看ABC和所有ABCD或DABC的關系;若AB后第三個詞的分布十分均勻且多樣,那么所有的ABC被認為是固定搭配,而AB被認為是固定搭配;
碎片篩除步驟:
(1)遍歷長度為l和長度為l+1的窗口,找出長度為l的窗口的所有母序列及其出現頻數;
(2)計算l+1窗口的頻數和其l窗口母序列的頻數比,若頻數比大于閾值0.9,則從候選窗口去除該母序列;
2-3)標點和詞性過濾并得到名詞短語
對于特定長度的術語,采用詞性序列統計法;對變長度的序列進行考慮,則由名詞的位置和名詞的占比篩除非候選詞:首尾均非實詞的詞組作為非術語候選詞處理,名詞占比低于特定閾值的詞語亦作為非術語候選詞處理;
與詞性過濾相平行,利用自然語言處理工具的名詞短語提取功能,直接從已完成預處理的語料中提出所有合法的名詞短語;
詞性過濾和提取名詞短語的結構取交集,得到候選名詞短語;
獲取英文名詞短語步驟:
(1)去除掉所有含有標點的窗口;
(2)詞性過濾,從所有窗口序列中,選出首尾不為虛詞且至少含有一個名詞的窗口,得到窗口集合S1;
(3)對于英文,使用短語句法分析器選出所有的名詞短語集合S2;
(4)對S1和S2取交集,得到候選名詞短語集合S;
獲取中文名詞短語步驟:
(1)去除掉所有含有標點的窗口;
(2)選出首尾不為虛詞且至少含有一個名詞的窗口,得到窗口集合S1;
(3)使用句法依存分析標記每個詞的詞性,和它依存的中心詞;
(4)如果某個詞和它的中心詞連續出現沒有間隔,則選取該窗口,否則不選取該窗口,據此得到名詞短語集合S2;
(5)對S1和S2取交集,得到候選名詞短語集合S;
2-4)候選詞整理
當候選詞篩選結束時,需要重整數據結構,記錄每個候選詞的詞頻詞性、詞長基本特征,以形成詞語到這些屬性元組的鍵值映射;
基本特征計算步驟:
(1)記錄候選詞的詞頻freq和歸并的詞性pos_tag,將不同長度的候選詞合并到同一字典;
3)術語獲取:
3-1)特征獲取;
(3-1-1)幾何分布參數
概念承載性和良好傳播性使用幾何分布參數和分布吻合系數去描述:當樣本量較大時,用極大似然估計找到最接近的幾何分布參數;針對小樣本情況,采用貝葉斯估計幾何分布參數;
極大似然估計法計算幾何分布參數步驟:
(1)計算出現候選詞的文章的篇數fa與次數fw
(2)計算幾何分布參數fa/fw
貝葉斯估計法計算幾何分布參數步驟:
(1)計算候選詞w在每篇文章中出現的次數,并全部減1得到列表Listw=[f1,f2,...,fpn],[aprior,bprior]=[列表長度,列表總和]
(2)以同樣方法計算所有候選詞的列表,并合成一個總表List且計算[a_experience,b_experience],[a_experience,b_experience]分別除以每個候選詞的數量數量得到各個候選詞的[a,b]表;
(3)上述[a,b]表中的a與b對應相加,得到[a_priori,b_priori],幾何分布參數為a/(a+b);
(3-1-2)幾何分布吻合系數計算步驟:
幾何分布吻合參數,衡量術語在篇章間的分布與幾何分布的相似度;
(1)每個候選詞計算上述Listw;
(2)通過過Listw得到候選詞的幾何分布參數p;
(3)計Listw中各個次數c的比例r;
(4)對于所有次數c,計算p(1-p)^c與r的較小值;
(5)求和所有較小值得到幾何分布吻合系數;
(3-1-3)詞語分布的h指數——高頻段詞頻-篇頻聯合估計
采用詞語篇章分布的h指數,即“若至少H篇文章中該詞語詞頻為h,則指數為h”;
h指數計算步驟:
(1)Listw按遞減做排序;
(2)遍歷Listw,在第i個位置,比較其元素Listw[i]和Listw[Listw[i]]的大小,若滿足Listw[Listw[i]]Listw[i],則h指數為Listw[i],遍歷停止;否則令h指數為Listw[i]-1,繼續遍歷;
(3)返回遍歷停止時的h作為結果;
(3-1-4)衡量窗口組成特殊性的詞均信息量
使用詞均信息量作為指標衡量信息豐富性,其為一個信息密度指標,每個詞的信息量基于語料相對詞頻所估計的概率去計算;
詞均信息量計算公式:
f(i)為組成候選詞的每個單詞的詞頻,len(x)為候選詞長度;
(3-1-5)衡量窗口結構穩定性的邏輯斯蒂點間互信息;
如果把全語料在詞語尺度上隨機重排,則按照一組詞頻計算該組詞形成的短語理論出現概率;但短語在有序語料情形下,自身的頻次即導出其實際出現頻率;實際出現頻率與隨機出現概率的比值,反映了窗口結構搭配的穩定性;
邏輯斯蒂點間互信息計算公式:
len(words)是語料中所有的詞數,len(windows)是語料中所有窗口數;
(3-1-6)衡量窗口實際意義的實詞占比
實詞占比計算公式:
其中content為實詞標簽,pos_tag為候選詞的所有標簽;
(3-1-7)衡量窗口可變性的組成、結構相異度:
以當實詞組成一致時,以虛詞的可變性程度作為衡量一個詞語術語性強弱的指標;
(3-1-8)邏輯斯蒂相對詞比
采用背景語料法,在其中計算候選詞表的詞頻用于統計,常用的背景語料有背景論文庫和維基語料,和當前場景越接近的負樣本文檔作為背景語料,富集出來的詞頻差異越可信;
邏輯斯諦相對詞比的計算公式為:
Relative_Ratio=logistic(f/f(back_corpus))
Back_corpus為當前所用的背景語料;
3-2)特征加工
進行詞語粗提時,由于目標甚至都不能完全確定,因此會選擇計算相當多的特征,但其中少數幾個特征是有效的,找出其中有效特征的過程就是特征加工;
特征加工采用降維方法抽取關鍵信息,由于已選特征的可排序性良好,適合采用主成分分析法;
3-3)核心詞錨定
核心詞錨定步驟:
樣本數量大:
(1)選擇區分屬性;
(2)對候選詞按各屬性分別排序;
(3)選出各屬性排名前10%的詞,取交集,作為正樣本;排名后10%的詞作為負樣本;若樣本數量小,人工選擇部分候選詞做標注;
3-4)分類算法
在核心詞錨定的基礎上,根據樣本規模和分布選擇不同的學習方式,樣本規模大時推薦采用神經網絡進行訓練;樣本規模小時,采用最近鄰分類方法;
分類步驟:
(1)選擇分類器,大樣本用神經網絡,小樣本用最近鄰分類方法;
(2)正負樣本輸入分類器完成訓練;
(3)在所有樣本上運行分類器做推斷,給出候選詞的預測標簽;
3-5)結果檢視
當基于Top-Bottom錨定的提取完成后,通過3D散點圖展示基本的分類效果和正負樣本的空間分布,并給出依概率倒序的詞匯表。
2.如權利要求1所述的通用自動術語提取方法,其特征在于,所述詞語屬性闡釋框架的3個模塊具體如下:
1)從語料到窗口即預處理:
窗口是語料上無需具備特定的關聯性而連續出現的單詞;
窗口取長度從1到最大設定長度的所有滑動窗口,每種長度下的窗口按其相似性做歸并,包括詞性的相似性歸并和詞形的相似性歸并;
2)從窗口到短語即候選詞篩選:
短語是出現一定次數、符合搭配習慣和詞性特征的窗口;
搭配上,短語按凝合度來連續地衡量搭配程度,搭配程度越高則成詞性越強;詞性上,短語分為名詞短語、動詞短語、形容詞短語,而術語提取工作中所認可的潛在術語均為名詞短語;
由于詞頻取值是離散的自然數,因此出現次數少的窗口在統計中會導致參數的不穩定,取大于某一詞頻的窗口;
3)從短語到術語即術語獲取:
術語是具有概念承載性、良好傳播性及其它重要屬性的短語;概念承載性與良好傳播性是術語的核心屬性:前者是表示術語相對非術語會承載更深刻的概念,而由于業余者將被排除出大規模展開討論的范圍,這種領域內對概念的差異把握使術語在文檔間以幾何分布的方式差異分布;后者是表示術語相對非術語會有更通暢的領域傳播,此情形下術語在文檔間能夠服從幾何分布;
概念承載性和良好傳播性是使一個短語成為術語的基本要求,但實際任務中,其它方面的屬性也會影響領域人員對一個短語是否為術語的判斷;這些屬性分為內部與外部兩類屬性,分別基于短語本身和短語之間的關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于集智學園(北京)科技有限公司,未經集智學園(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110364472.5/1.html,轉載請聲明來源鉆瓜專利網。





