[發明專利]一種基于定義與關系的術語抽取方法有效
| 申請號: | 201710833633.4 | 申請日: | 2017-09-15 |
| 公開(公告)號: | CN107577670B | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 許斌;李思良;楊玉基 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/289 |
| 代理公司: | 北京眾合誠成知識產權代理有限公司 11246 | 代理人: | 朱琨 |
| 地址: | 100084 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 定義 關系 術語 抽取 方法 | ||
本發明屬于文本挖掘領域,尤其涉及一種基于定義與關系的術語抽取方法,該方法以挖掘術語定義與術語關系為主,綜合構詞規則和邊界檢測,其首先對文本進行定義抽取,從定義中生成初始的優質術語候補,之后會根據術語關系不斷對術語候補進行擴充。本發明提出的上述術語抽取方法有利于提高對低頻術語的辨識能力和對于通用性較高術語、長字數術語的抽取能力。
技術領域
本發明屬于文本挖掘領域,尤其涉及一種基于定義與關系的術語抽取方法。
背景技術
術語作為在特定領域內表達專業概念的約定性符號,在中文分詞、句法分析等自然語言領域都發揮著重要的作用。在構建領域知識庫的過程中,術語作為領域內知識的主要體現,在知識實例的擴充工作中有著重要的地位。從非結構化文本中手工進行術語標注耗費大量人力與時間,且會存在因標注遺漏而導致召回率降低的情況。因此自動的術語抽取工作受到了越來越多研究者的重視。
現有技術中的術語抽取方法主要包含兩個步驟。第一步是通過對字符串的單元性計算來獲取候補術語;第二步則通過術語性這一衡量指標來抽取出真正的術語。其中單元性是用來刻畫特定字符串組合的穩定性,術語性是用來描述一個語言單位在該領域內的相關程度。這些方法大都是基于統計的方法。但為基礎教育知識庫構建進行術語抽取時,術語的統計特征和專業領域中的術語有較大的不同。以數學學科為例,術語“三角形”在初高中課本中共出現1779次,而術語“切點圓”則僅僅出現3次。數學教材中僅有少部分重要術語被反復使用,這種長尾特性會造成低頻詞的遺漏。此外,一些基礎性術語如“面”、“線”也被廣泛地使用在其他領域,這種現象會導致通用性高的術語會因為逆向文件頻率而被認為是領域無關的詞語。
因此,現有技術中的術語抽取方法對于低頻術語的辨識能力較低,容易造成遺漏,對通用性較高的術語以及長字數術語抽取能力較差。
專業詞匯解釋
定義:對一個概念的內涵和外延的確切而簡要的說明。比如,什么是“外切圓”。
構詞規則:即詞語是如何構成的,比如“直角三角形”是由名詞“直角”和“三角形”構成的。
模板:是指概括某類情況的抽象表達。比如,“下位部分是上位部分”模板就包含了所有“A是B”的情況,其中“A”是“下位部分”,“B”是“上位部分”。
邊界詞表:出現在邊界位置的常見的副詞(如“時”、“都”、“于”、“各”等等)以及常用的代詞和量詞搭配(如“這個”、“一組”、“一對”、“一條”等等)組成的詞表。
邊界檢測:通過邊界詞表篩選術語候選中的術語。比如“一條直線”在術語候選中,但是我們的邊界詞表中有“一條”,則說明“一條直線”不是術語,需要從術語候選中刪除。
術語候選:是術語的可能性較大但還需進一步確認的詞語或句子片段的集合。比如,上面提到的“一條直線”。
右型候選(Rc):術語更容易出現在右側部分的術語候選,比如術語候選“一條直線”就是Rc,術語是“直線”,出現在“一條直線”的右側。
左型候選(Lc):術語更容易出現在左側部分的術語候選,比如“直線上”是Lc,術語是“直線”,出現在“直線上”的左側。
發明內容
針對上述問題,本發明提出了一種基于定義與關系的術語抽取方法,所述方法包括以下步驟:
步驟(1):對html格式的文本進行預處理與初始化;
步驟(2):依據步驟(1)處理后得到的文本,進行基于定義的術語候補抽取,生成一個術語候補集;
步驟(3):利用步驟(1)處理后得到的文本與步驟(2)生成的所述術語候補集,進行基于上下位關系的術語候補抽取,生成新的術語候補集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710833633.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種穩定可靠的玻璃架自鎖固定裝置
- 下一篇:一種客車燈罩承載工裝





