日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種通用自動術語提取方法有效

專利信息
申請號: 202110364472.5 申請日: 2021-04-05
公開(公告)號: CN112966508B 公開(公告)日: 2023-08-25
發明(設計)人: 胡喬;徐恩嶠 申請(專利權)人: 集智學園(北京)科技有限公司
主分類號: G06F40/289 分類號: G06F40/289;G06F40/268;G06F40/211;G06F40/216;G06F16/35
代理公司: 江蘇海越律師事務所 32402 代理人: 唐小紅
地址: 100000 北京市海淀區*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 通用 自動 術語 提取 方法
【權利要求書】:

1.一種通用自動術語提取方法,其特征在于,包括一套詞語屬性闡釋框架和一套術語提取流程,詞語屬性闡釋框架有3個模塊:從語料到窗口、從窗口到短語、從短語到術語,分別對應術語提取流程中的語料預處理、候選詞篩選、術語提取3個步驟;

所述術語提取流程3個步驟如下:

1)預處理:

1-1)語料清洗:

去除語料中的格式和公式文本;

語料清洗步驟如下:

(1)使用正則表達式去除語料中的html標簽;

(2)使用正則表達式去除語料中的數學公式;

1-2)分詞:

采用相應語言的分詞工具進行分詞;

1-3)詞性標注及其校正:

采用相應的詞性標注工具,按詞語序列標注詞性;而后統計長度為2的滑動窗口的詞性,并將同一詞語序列的不同詞性標注校正為出現次數最大者;

詞性校正步驟如下:

(1)用分詞的結果序列做第一輪詞性標注;

(2)取長度為2的滑動窗口,統計每個滑動窗口出現的詞性序列,將滑動窗口的詞性序列歸并到出現次數最多的序列;

(3)用長度為2的滑動窗口再次遍歷原語料,使用歸并后的詞性序列校正第一輪標注的詞性;

1-4)詞形還原

對具有不同時態和語態的西文語言,應結合詞語的詞形進行還原;

詞形還原的步驟:英文的名詞復數還原為單數,形容詞比較級和最高級還原為原形,其他詞形不做處理;中文無需進行詞形還原;

2)候選詞篩選:

2-1)頻次分析與窗口獲取;

統計語料分詞后的總詞數,統計不同長度的滑動窗口數;

選擇一個截斷詞頻,放棄該截斷詞頻以下的窗口;另外,不同長度的滑動窗口自下而上搜索獲得,

以(wm,...,wn)表示長度為n-m+1(n≥m)的滑動窗口,而#(wm,...,wn)表示滑動窗口(wm,...,wn)在語料中出現的頻次;若n>m,則顯然有:

#(wm+1,...,wn),#(wm,...,wn-1)

#(wm,...,wn)

#(wm-1,...,wn),#(wm,...,wn+1)

對于給定語料中的任意一對存在包含關系的滑動窗口,恒有#母序列

≥#子序列成立,且易知等號在常規文本中難以成立,因此當截斷詞頻大于1時,采用自動搜索算法,不斷增加長度,到某級不再出現詞頻滿足條件的序列則自動停止搜索;

窗口獲取的步驟:

(1)分別遍歷語料,獲取長度為1到n的所有窗口;

(2)統計計每個窗口出現的頻數,選取窗口數量在設定詞頻閾值之上的部分;

2-2)碎片篩除;

由于滑動窗口法會得到無法使用凝合度方法過濾的一些詞語碎片或者不穩定搭配,需要進行搭配分析以過濾這些窗口;若ABC的詞頻與AB的詞頻近似相等,那么,當出現AB時,一定有C隨后出現,AB將不再被單獨考慮為一個詞組;至于是否將ABC作為詞組,則要相應地看ABC和所有ABCD或DABC的關系;若AB后第三個詞的分布十分均勻且多樣,那么所有的ABC被認為是固定搭配,而AB被認為是固定搭配;

碎片篩除步驟:

(1)遍歷長度為l和長度為l+1的窗口,找出長度為l的窗口的所有母序列及其出現頻數;

(2)計算l+1窗口的頻數和其l窗口母序列的頻數比,若頻數比大于閾值0.9,則從候選窗口去除該母序列;

2-3)標點和詞性過濾并得到名詞短語

對于特定長度的術語,采用詞性序列統計法;對變長度的序列進行考慮,則由名詞的位置和名詞的占比篩除非候選詞:首尾均非實詞的詞組作為非術語候選詞處理,名詞占比低于特定閾值的詞語亦作為非術語候選詞處理;

與詞性過濾相平行,利用自然語言處理工具的名詞短語提取功能,直接從已完成預處理的語料中提出所有合法的名詞短語;

詞性過濾和提取名詞短語的結構取交集,得到候選名詞短語;

獲取英文名詞短語步驟:

(1)去除掉所有含有標點的窗口;

(2)詞性過濾,從所有窗口序列中,選出首尾不為虛詞且至少含有一個名詞的窗口,得到窗口集合S1;

(3)對于英文,使用短語句法分析器選出所有的名詞短語集合S2;

(4)對S1和S2取交集,得到候選名詞短語集合S;

獲取中文名詞短語步驟:

(1)去除掉所有含有標點的窗口;

(2)選出首尾不為虛詞且至少含有一個名詞的窗口,得到窗口集合S1;

(3)使用句法依存分析標記每個詞的詞性,和它依存的中心詞;

(4)如果某個詞和它的中心詞連續出現沒有間隔,則選取該窗口,否則不選取該窗口,據此得到名詞短語集合S2;

(5)對S1和S2取交集,得到候選名詞短語集合S;

2-4)候選詞整理

當候選詞篩選結束時,需要重整數據結構,記錄每個候選詞的詞頻詞性、詞長基本特征,以形成詞語到這些屬性元組的鍵值映射;

基本特征計算步驟:

(1)記錄候選詞的詞頻freq和歸并的詞性pos_tag,將不同長度的候選詞合并到同一字典;

3)術語獲取:

3-1)特征獲取;

(3-1-1)幾何分布參數

概念承載性和良好傳播性使用幾何分布參數和分布吻合系數去描述:當樣本量較大時,用極大似然估計找到最接近的幾何分布參數;針對小樣本情況,采用貝葉斯估計幾何分布參數;

極大似然估計法計算幾何分布參數步驟:

(1)計算出現候選詞的文章的篇數fa與次數fw

(2)計算幾何分布參數fa/fw

貝葉斯估計法計算幾何分布參數步驟:

(1)計算候選詞w在每篇文章中出現的次數,并全部減1得到列表Listw=[f1,f2,...,fpn],[aprior,bprior]=[列表長度,列表總和]

(2)以同樣方法計算所有候選詞的列表,并合成一個總表List且計算[a_experience,b_experience],[a_experience,b_experience]分別除以每個候選詞的數量數量得到各個候選詞的[a,b]表;

(3)上述[a,b]表中的a與b對應相加,得到[a_priori,b_priori],幾何分布參數為a/(a+b);

(3-1-2)幾何分布吻合系數計算步驟:

幾何分布吻合參數,衡量術語在篇章間的分布與幾何分布的相似度;

(1)每個候選詞計算上述Listw;

(2)通過過Listw得到候選詞的幾何分布參數p;

(3)計Listw中各個次數c的比例r;

(4)對于所有次數c,計算p(1-p)^c與r的較小值;

(5)求和所有較小值得到幾何分布吻合系數;

(3-1-3)詞語分布的h指數——高頻段詞頻-篇頻聯合估計

采用詞語篇章分布的h指數,即“若至少H篇文章中該詞語詞頻為h,則指數為h”;

h指數計算步驟:

(1)Listw按遞減做排序;

(2)遍歷Listw,在第i個位置,比較其元素Listw[i]和Listw[Listw[i]]的大小,若滿足Listw[Listw[i]]Listw[i],則h指數為Listw[i],遍歷停止;否則令h指數為Listw[i]-1,繼續遍歷;

(3)返回遍歷停止時的h作為結果;

(3-1-4)衡量窗口組成特殊性的詞均信息量

使用詞均信息量作為指標衡量信息豐富性,其為一個信息密度指標,每個詞的信息量基于語料相對詞頻所估計的概率去計算;

詞均信息量計算公式:

f(i)為組成候選詞的每個單詞的詞頻,len(x)為候選詞長度;

(3-1-5)衡量窗口結構穩定性的邏輯斯蒂點間互信息;

如果把全語料在詞語尺度上隨機重排,則按照一組詞頻計算該組詞形成的短語理論出現概率;但短語在有序語料情形下,自身的頻次即導出其實際出現頻率;實際出現頻率與隨機出現概率的比值,反映了窗口結構搭配的穩定性;

邏輯斯蒂點間互信息計算公式:

len(words)是語料中所有的詞數,len(windows)是語料中所有窗口數;

(3-1-6)衡量窗口實際意義的實詞占比

實詞占比計算公式:

其中content為實詞標簽,pos_tag為候選詞的所有標簽;

(3-1-7)衡量窗口可變性的組成、結構相異度:

以當實詞組成一致時,以虛詞的可變性程度作為衡量一個詞語術語性強弱的指標;

(3-1-8)邏輯斯蒂相對詞比

采用背景語料法,在其中計算候選詞表的詞頻用于統計,常用的背景語料有背景論文庫和維基語料,和當前場景越接近的負樣本文檔作為背景語料,富集出來的詞頻差異越可信;

邏輯斯諦相對詞比的計算公式為:

Relative_Ratio=logistic(f/f(back_corpus))

Back_corpus為當前所用的背景語料;

3-2)特征加工

進行詞語粗提時,由于目標甚至都不能完全確定,因此會選擇計算相當多的特征,但其中少數幾個特征是有效的,找出其中有效特征的過程就是特征加工;

特征加工采用降維方法抽取關鍵信息,由于已選特征的可排序性良好,適合采用主成分分析法;

3-3)核心詞錨定

核心詞錨定步驟:

樣本數量大:

(1)選擇區分屬性;

(2)對候選詞按各屬性分別排序;

(3)選出各屬性排名前10%的詞,取交集,作為正樣本;排名后10%的詞作為負樣本;若樣本數量小,人工選擇部分候選詞做標注;

3-4)分類算法

在核心詞錨定的基礎上,根據樣本規模和分布選擇不同的學習方式,樣本規模大時推薦采用神經網絡進行訓練;樣本規模小時,采用最近鄰分類方法;

分類步驟:

(1)選擇分類器,大樣本用神經網絡,小樣本用最近鄰分類方法;

(2)正負樣本輸入分類器完成訓練;

(3)在所有樣本上運行分類器做推斷,給出候選詞的預測標簽;

3-5)結果檢視

當基于Top-Bottom錨定的提取完成后,通過3D散點圖展示基本的分類效果和正負樣本的空間分布,并給出依概率倒序的詞匯表。

2.如權利要求1所述的通用自動術語提取方法,其特征在于,所述詞語屬性闡釋框架的3個模塊具體如下:

1)從語料到窗口即預處理:

窗口是語料上無需具備特定的關聯性而連續出現的單詞;

窗口取長度從1到最大設定長度的所有滑動窗口,每種長度下的窗口按其相似性做歸并,包括詞性的相似性歸并和詞形的相似性歸并;

2)從窗口到短語即候選詞篩選:

短語是出現一定次數、符合搭配習慣和詞性特征的窗口;

搭配上,短語按凝合度來連續地衡量搭配程度,搭配程度越高則成詞性越強;詞性上,短語分為名詞短語、動詞短語、形容詞短語,而術語提取工作中所認可的潛在術語均為名詞短語;

由于詞頻取值是離散的自然數,因此出現次數少的窗口在統計中會導致參數的不穩定,取大于某一詞頻的窗口;

3)從短語到術語即術語獲取:

術語是具有概念承載性、良好傳播性及其它重要屬性的短語;概念承載性與良好傳播性是術語的核心屬性:前者是表示術語相對非術語會承載更深刻的概念,而由于業余者將被排除出大規模展開討論的范圍,這種領域內對概念的差異把握使術語在文檔間以幾何分布的方式差異分布;后者是表示術語相對非術語會有更通暢的領域傳播,此情形下術語在文檔間能夠服從幾何分布;

概念承載性和良好傳播性是使一個短語成為術語的基本要求,但實際任務中,其它方面的屬性也會影響領域人員對一個短語是否為術語的判斷;這些屬性分為內部與外部兩類屬性,分別基于短語本身和短語之間的關系。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于集智學園(北京)科技有限公司,未經集智學園(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110364472.5/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 色婷婷综合久久久中文一区二区| 国产午夜精品免费一区二区三区视频| 国产1区在线观看| 日韩国产精品久久| 精品国产品香蕉在线| 国产精品高潮在线| 亚洲精品久久久久中文字幕欢迎你 | 国产欧美精品va在线观看| 亚洲欧美国产中文字幕| 国产一区二区视频免费在线观看 | 久久精品欧美一区二区| 国产精品久久久久久久久久久不卡| 97久久国产精品| 一区二区在线精品| 国产精品欧美久久| 国产精品99999999| 亚洲欧洲另类精品久久综合| 日韩欧美国产精品一区| 国产91免费在线| 狠狠色噜狠狠狠狠| 好吊妞国产欧美日韩免费观看网站| 国产日韩精品久久| 精品国产1区2区3区| 亚洲欧美一区二区三区不卡| 夜夜躁狠狠躁日日躁2024| 日韩精品中文字幕在线播放| 欧美日韩一区不卡| 久久久久久久亚洲视频| 黄毛片在线观看| 9999国产精品| 日韩精品中文字幕久久臀| 午夜激情电影院| 欧美高清极品videossex| 综合久久国产九一剧情麻豆| 国产视频一区二区在线播放| 中文字幕在线视频一区二区| 国产精品不卡一区二区三区| 国产精品一区二| 国产精品一区二区在线观看| 欧美日韩久久一区二区| 91久久综合亚洲鲁鲁五月天 | 精品国精品国产自在久不卡| 日韩欧美国产高清91| 国产无套精品一区二区| 久久精品综合视频| 精品国产乱码久久久久久老虎| 高清国产一区二区 | 国产区精品| 国产精品麻豆一区二区三区| 日韩av在线导航| 亚洲va国产2019| 欧美在线播放一区| 国产精一区二区三区| 久久久国产精品一区| 国产91丝袜在线| 国产一区免费播放| 欧洲国产一区| 久久天堂国产香蕉三区| 九九久久国产精品| 国产一区二区电影| 亚洲精品久久久久久久久久久久久久 | 久久影院国产精品| 狠狠色噜噜狠狠狠狠777| 国产乱了高清露脸对白| 精品国产乱码一区二区三区在线| 国产欧美日韩另类| 激情久久久久久| 欧美精品免费看| 国产无遮挡又黄又爽又色视频 | 99国产精品永久免费视频| 一区精品二区国产| 亚洲欧美视频一区二区| 亚洲欧美国产日韩综合| 91夜夜夜| 国产精品视频免费一区二区| 丰满少妇高潮惨叫久久久| 欧美国产三区| 91精品国产91久久久| 国产精品剧情一区二区三区| 国产日产精品一区二区| 国产女人与拘做受免费视频| 伊人精品一区二区三区| 亚洲一区二区三区加勒比| 国产欧美一区二区精品性| 日韩一区二区精品| 538国产精品| 欧美一区视频观看| 香蕉av一区二区| 国产欧美综合一区| 视频国产一区二区| 夜夜精品视频一区二区 | 亚洲欧洲日韩| 日韩中文字幕亚洲欧美| 国产全肉乱妇杂乱视频在线观看 | 国产色99| 欧美精品一级二级| 欧美精品一区二区性色| 国产盗摄91精品一区二区三区| 激情久久精品| 99精品区| 国产精品自产拍在线观看蜜| 欧美日韩中文字幕三区| 国产1区2区3区| 免费久久99精品国产婷婷六月| 国产午夜精品免费一区二区三区视频| 欧美一区二区三区免费观看视频| 亚洲欧洲日韩在线| 国精偷拍一区二区三区| 精品国产鲁一鲁一区二区三区| 国产无遮挡又黄又爽又色视频| 国产精品久久久av久久久| 亚洲欧美制服丝腿| 亚洲精品国产一区二区三区| 国产乱一乱二乱三| 综合久久一区| 日本道欧美一区二区aaaa| 日本三级香港三级| 久久免费精品国产| 国产原创一区二区| 在线国产一区二区三区| 亚洲精品一区二区三区香蕉| 欧美激情在线免费| 狠狠色狠狠色综合久久第一次| 久久黄色精品视频| 最新国产一区二区| 国产在线一卡二卡| 中文字幕一区三区| 91精品免费观看| 少妇高清精品毛片在线视频| 久久99亚洲精品久久99果| 91亚洲精品国偷拍自产| 欧美一区二区三区精品免费| 日本一二三区视频在线| ass美女的沟沟pics| 亚洲精品国产一区二区三区| 91嫩草入口| 羞羞视频网站免费| 国产一区二区日韩| 国产精品一区二区三| 国产精品一区一区三区| 欧美日韩一区二区三区精品| 免费超级乱淫视频播放| 一区二区中文字幕在线| 国产中文字幕一区二区三区| 99日韩精品视频| xxxxx色| 国产伦精品一区二区三区免费迷| 国产亚洲精品久久网站| 亚洲国产视频一区二区三区| 亚洲欧美日韩三区| 国产91在| 亚洲精品中文字幕乱码三区91| 国产一区二区视频免费在线观看 | 国产理论片午午午伦夜理片2021 | 国产精品高潮呻吟视频| 欧美日韩偷拍一区| 欧美精品五区| 欧美激情精品一区| av午夜在线观看| 神马久久av| 狠狠色丁香久久综合频道日韩| 日韩精品福利片午夜免费观看| 亚洲国产99| 国产精品一区在线观看你懂的| 日韩av片无码一区二区不卡电影| 国产欧美日韩一区二区三区四区| 国产高清在线精品一区二区三区| 日韩av电影手机在线观看| 亚洲高清毛片一区二区| 日韩亚洲欧美一区二区| 国产午夜精品一区二区三区最新电影 | 午夜激情电影在线播放| 久久久精品99久久精品36亚 | 99er热精品视频国产| 激情欧美一区二区三区| 国产91综合一区在线观看| 国产原创一区二区| 麻豆视频免费播放| 色狠狠色狠狠综合| 日本二区在线播放| 久久精品国产综合| 强制中出し~大桥未久10| 91国偷自产中文字幕婷婷| 午夜一区二区视频| 午夜色影院| av毛片精品| 午夜叫声理论片人人影院| 国产91精品一区二区麻豆亚洲| 日韩欧美亚洲视频| 国产精品日韩电影| 国产白丝一区二区三区| 欧美一区二区三区三州| 国产麻豆一区二区| 国产精品久久久久久久久久久久久久久久| 亚洲乱码一区二区三区三上悠亚| 国产精品19乱码一区二区三区| 高清人人天天夜夜曰狠狠狠狠| 国产精品美女一区二区视频| 午夜三级大片| 欧美精品久久一区二区| 午夜伦情电午夜伦情电影| 日本一区二区三区免费播放| 久久久久久久亚洲视频| 男女视频一区二区三区| 99久久精品免费看国产免费粉嫩 | 国产第一区在线观看| 素人av在线| 久久一二区| 国产偷久久一区精品69 | 精品国产18久久久久久依依影院| 一区二区久久精品66国产精品| 日韩一级精品视频在线观看 | 97久久国产精品| 91精品国产综合久久福利软件| 欧美一级免费在线视频| 国产午夜精品一区二区三区在线观看 | 亚洲欧美国产精品一区二区| 久久国产精品99国产精| 日本黄页在线观看| 99国产精品久久久久| 国产精品v亚洲精品v日韩精品| 日韩亚洲欧美一区二区| 国产一二区精品| 午夜毛片在线看| 丰满少妇高潮惨叫久久久| 亚洲精品久久久久999中文字幕| 91午夜在线| 久久久久久久久亚洲精品| 免费xxxx18美国| 亚洲国产精品区| 国产日韩欧美亚洲| 亚洲精品久久久久久久久久久久久久| 97视频久久久| 国产精品九九九九九九九| 午夜国产一区| 99久久精品国产国产毛片小说| 99久久久国产精品免费无卡顿| 国产午夜三级一二三区| 国产一区二区麻豆| 国产偷久久一区精品69| 欧美精品日韩一区| 右手影院av| 理论片高清免费理伦片| 午夜av电影网| 北条麻妃久久99精品| 亚洲精品久久久久中文字幕欢迎你|