[發明專利]科技術語的自動化抽取方法無效
| 申請號: | 200910162380.8 | 申請日: | 2009-08-14 |
| 公開(公告)號: | CN101655866A | 公開(公告)日: | 2010-02-24 |
| 發明(設計)人: | 王進;張素蘭;賈學杰;任麗;王永生;張遷;王婷婷 | 申請(專利權)人: | 北京中獻電子技術開發中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100088*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 科技 術語 自動化 抽取 方法 | ||
1.一種科技術語抽取方法,包括以下步驟:
步驟A,以IPC國際專利分類號為基礎,按照中文專利文獻所屬領域的不同將該中文專利文獻劃分到不同領域的文獻庫中;
步驟B,以劃分后的不同領域的中文專利文獻庫組成語料庫,并根據科技術語的特點,從語料庫中抽取所包含的科技術語;其中,所述語料庫由劃分后的不同領域的中文專利文獻的標題、摘要、權利要求和說明書全文作為語料組成,所述科技術語的特點包括字符串重復出現的頻次、字符串分詞信息的完整度、字符串成詞概率、在文獻中出現位置;
步驟C,將自動抽取出的術語,組成術語庫,再由人工輔助確認;
其中,
所述步驟B中,進一步包括以下步驟:
步驟B1,以與領域文獻庫為單位,根據統計的方法,尋找重復出現的字串,并記錄重復字串的特征,具體步驟如下:
對專利文獻的文本進行基礎詞切分,形成帶有詞性標注的詞語序列,該切分所用的基礎詞由通用詞和用戶詞兩部分組成,所用基礎詞切分方法是采用從后向前最大匹配法,即從字符串尾取字,到基礎詞庫獲取以該字為尾字的所有詞條,并一一和字符串比較,取其中可匹配的最大詞條作為切分結果,然后跳過該匹配部分,取出下一個未經匹配的尾字,重復匹配過程,直到字符串出頭為止;
步驟B2,根據文檔率和總頻次以及出現位置計算重復串的特征值,計算方法如下:
特征值分為兩部分,文檔內特征值wi和文檔間特征值wg;
步驟B3,設定一閾值,將特征值小于該閾值的重復串刪除,所述閾值由語料訓練得到;
步驟B4,對重復串進行分詞,獲取其中的實詞串,所述實詞包括名詞、動詞、形容詞、副詞詞類;
步驟B5,結合詞法規則,對實詞串進行頭部和尾部校驗,以進一步確定術語的合法邊界,直到頭部和尾部均校驗完畢,文檔內特征值由文檔內部的分布情況計算,文檔間特征值主要根據重復串在文檔集合中出現的情況計算,所述重復字符串的特征包括字符串的出現的文檔率、總頻次、出現位置,最后的特征值為二者的乘積:w=wi×wg。
2.根據權利要求1所述的方法,其中,
文檔間特征值表示如果某重復串的分布在文檔集合中是均勻的,說明該重復串在很多文本中出現,故認為其代表某一文本的能力較弱,該重復串的文檔間特征值應為0;如果該詞只在一個文本中出現,這時認為該重復串代表這一文本的能力強,其文檔間特征值則最大。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中獻電子技術開發中心,未經北京中獻電子技術開發中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910162380.8/1.html,轉載請聲明來源鉆瓜專利網。





