[發(fā)明專利]一種面向文本的領(lǐng)域術(shù)語與術(shù)語關(guān)系抽取方法有效
| 申請?zhí)枺?/td> | 201110312280.6 | 申請日: | 2011-10-15 |
| 公開(公告)號: | CN102360383A | 公開(公告)日: | 2012-02-22 |
| 發(fā)明(設計)人: | 鄭慶華;劉均;羅俊英;程曉程 | 申請(專利權(quán))人: | 西安交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 朱海臨 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 文本 領(lǐng)域 術(shù)語 關(guān)系 抽取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及文本挖掘、知識獲取方法,特別涉及一種面向文本的領(lǐng)域術(shù)語與術(shù)語關(guān)系的抽取方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)應用的日趨廣泛,網(wǎng)絡學習已成為人們獲得和學習知識的主要手段之一,而術(shù)語作為知識的基本組成單元,是構(gòu)建知識地圖、知識導航的基石。如何對特定領(lǐng)域的文本進行分類,或是為有經(jīng)驗人士提供特定領(lǐng)域中知識結(jié)構(gòu)以及演化規(guī)律,又或是為學習者提供某個領(lǐng)域的正確學習路徑,因此如何高效準確地獲得不同領(lǐng)域的術(shù)語集合以及術(shù)語之間的關(guān)系非常重要。
申請人經(jīng)過查新,檢索到下列與本發(fā)明有關(guān)的專利文獻:
①基于錨文本分析的領(lǐng)域術(shù)語自動生成方法(申請人:清華大學;北京搜狗科技發(fā)展有限公司,專利號:201110091312.4)
②科技術(shù)語的自動化抽取方法(申請人:北京中獻電子技術(shù)開發(fā)中心,專利號:200910162380.8)
③中文術(shù)語自動提取系統(tǒng)及方法(申請人:北京大學,專利號:200810119708.3)
④一種專業(yè)術(shù)語抽取方法和系統(tǒng)(申請人:中國科學院計算技術(shù)研究所,專利號:200710121839.0)
⑤用于從具有文本段的文檔中提取術(shù)語的系統(tǒng)(申請人:國際商業(yè)機器公司,專利號:200980134535.5)
⑥一種術(shù)語快速標注方法(申請人:傳神聯(lián)合(北京)信息技術(shù)有限公司,專利號:201010545766.X)
其中專利①-⑤主要基于單一的術(shù)語識別模型,不能有效地去除候選詞中噪聲詞,對派生術(shù)語識別效果不是太好。
專利⑥只是構(gòu)建前綴表來節(jié)省字符串匹配次數(shù),采用窮舉的方法,效率低下。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種可有效去除候選詞中噪聲詞、提高術(shù)語識別率的領(lǐng)域術(shù)語的離線構(gòu)建、在線獲取以及術(shù)語關(guān)系抽取的方法。
為達到以上目的本發(fā)明是采取如下技術(shù)方案予以實現(xiàn)的:
一種面向文本的領(lǐng)域術(shù)語與術(shù)語關(guān)系抽取方法,其特征在于,包括下述步驟:
(1)對待識別文本進行預處理;
(2)通過倒排索引結(jié)構(gòu)構(gòu)建術(shù)語詞典,并采用最長序列匹配算法,對待識別文本中的術(shù)語進行識別;所述的術(shù)語是指在特定領(lǐng)域中約定俗成,或者經(jīng)過規(guī)定,被廣泛使用來描述該領(lǐng)域中某個概念的詞;所述術(shù)語詞典是指,通過模式識別的方法,從原始語料集中提取出來的術(shù)語集,該術(shù)語集采用倒排索引結(jié)構(gòu)進行組織;
(3)利用多維度節(jié)點標記規(guī)則,通過訓練的條件隨機場模型進行多層次標記序列標注,抽取術(shù)語間的關(guān)系;所述術(shù)語關(guān)系抽取是指給定某一領(lǐng)域內(nèi)一定語境中的術(shù)語集合,給定定義好的術(shù)語關(guān)系類型,判斷術(shù)語間是否存在某種類型的關(guān)系;
其中,步驟(2)所述的倒排索引結(jié)構(gòu)是指:a)將相同前綴的術(shù)語分成一組,按照詞長,由長到短排序;b)以它們的公共前綴作為索引關(guān)鍵詞;
步驟(2)所述的術(shù)語詞典構(gòu)建方法包括下述具體步驟:
Step1:對原始語料集進行預處理,獲取候選詞集;
Step2:通過互聯(lián)網(wǎng)詞頻過濾和混合詞頻過濾方法,對候選詞進行噪聲詞過濾;所述互聯(lián)網(wǎng)詞頻過濾是指,對于一個候選詞K,若K在互聯(lián)網(wǎng)詞頻表中的詞頻值大于閾值M,那么K可能是一個常詞,則將其過濾,互聯(lián)網(wǎng)詞頻表是指,對詞串在大量的互聯(lián)網(wǎng)文本中出現(xiàn)次數(shù)的抽樣統(tǒng)計;所述混合詞頻過濾方法是指,對于一個候選詞K,如果存在n個候選詞包含K,且那么K可能是一個常詞,則將其過濾;
Step3:在傳統(tǒng)術(shù)語特征基礎(chǔ)上,加入互聯(lián)網(wǎng)特征,并采用雙模型結(jié)構(gòu)的方法,構(gòu)建術(shù)語識別模型,從原始語料集中抽取領(lǐng)域術(shù)語;
步驟(2)所述的最長序列匹配算法包括下述具體步驟:
Step1:對待識別的文本進行分詞;
Step2:將分詞后得到基本詞作為關(guān)鍵詞,在術(shù)語詞典中查找包含該前綴的術(shù)語集;
Step3:對這個術(shù)語集中出現(xiàn)的術(shù)語,按詞長,由長到短,與待識別的文本中進行匹配,若匹配成功,則在原文中標識該術(shù)語。
上述方案中,所述多維度節(jié)點標記規(guī)則是指,在序列標注的過程中,根據(jù)每個節(jié)點的特征形成觀測序列的規(guī)則;所述節(jié)點是指句子當中的每個術(shù)語或普通詞語;所述觀測序列是指每個節(jié)點的可以觀測到的特征組合成的序列;多維度節(jié)點標記規(guī)則分為以下4個維度:
(1)詞語或者術(shù)語本身作為標記;
(2)當前節(jié)點詞語或者術(shù)語的詞性標記信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學,未經(jīng)西安交通大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110312280.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





