[發明專利]科技術語的自動化抽取方法無效
| 申請號: | 200910162380.8 | 申請日: | 2009-08-14 |
| 公開(公告)號: | CN101655866A | 公開(公告)日: | 2010-02-24 |
| 發明(設計)人: | 王進;張素蘭;賈學杰;任麗;王永生;張遷;王婷婷 | 申請(專利權)人: | 北京中獻電子技術開發中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100088*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 科技 術語 自動化 抽取 方法 | ||
技術領域
本發明涉及一種利用計算機對科技術語自動識別和抽取的方法,特別是涉及一種利用計算機對中文專利文獻科技術語自動識別和人工輔助抽取的方法。
背景技術
隨著信息技術的發展,人們掌握的科技文獻越來越多,而手工進行加工處理顯然已經成為不可能,因此自動化技術的引入是必然的趨勢。然而,要對這些信息進行自動文摘、自動標引、自動分類甚至是機器翻譯等加工處理,科技術語是一大障礙。自動識別并抽取文獻中的科技術語,是一件非常緊迫、也是一件非常有意義的工作
中國專利申請03148989.3公開了一種從雙語語料庫中自動抽取多詞翻譯等價單元的方法。該發明方法采用平均關聯度和關聯度的歸一化差值作為雙語多詞翻譯等價單元的關聯衡量標準;在對齊的過程中同時識別多詞單元。該發明方法的改進使得算法能有效地同時抽取高頻和低頻雙語多詞翻譯等價單元,提高抽取的正確率和降低計算復雜度。該方法是一種基于共現概率的方法,而且僅限于中英對齊語料庫,并沒有對中文文獻進行深入的研究。
中國專利申請200710121839.0公開了一種專業術語抽取方法和系統,按照專利文獻所屬領域的不同將專利文獻劃分到不同領域的文獻庫中;而后以劃分后的不同領域的專利文獻庫,組成語料庫,并根據專業術語的特點,從語料庫中抽取所包含的專業術語。該發明還提出了一種專業術語抽取系統。采用本發明的方法和系統,不僅可以改進專業術語的提取結果,還可以把改進的規則和概率應用到下次提取中,以提高準確率。但是,此方法沒有加入漢語本身的一些成詞規則,仍是一種基于頻次等的概率方法,準確率達到一定程度的時候就會很難有所突破,瓶頸明顯。
發明內容
本發明提供的方法是基于詞性標注的基本信息,采用基于統計和基于規則的雙重手段,并以漢語詞組構詞法的角度出發,自動判別并抽取出可能成詞的中文術語,并在人工輔助的基礎上,對術語進行精細加工和收集。
與普通詞匯相比,科技術語具有以下一些特征:
科技術語主要是名詞性的組合型詞組;
科技術語主要由實詞和實詞性語素構成;
科技術語具有普遍性,重復出現的幾率很高;
科技術語具有單義性,與應用領域密切相關;
基于以上特點,本發明提出一種科技術語抽取方法,包括以下步驟:
步驟A,按照專利文獻所屬領域的不同將專利文獻劃分到不同領域的文獻庫中;
步驟B,以劃分后的不同領域的專利文獻庫,組成語料庫,并根據科技術語的特點,從語料庫中抽取所包含的科技術語。
所述科技術語的特點包括字符串重復出現的頻次、字符串分詞信息的完整度、字符串成詞概率、在文獻中出現位置等因素的綜合。
所述方法中的語料庫以劃分后的不同領域的專利文獻的標題、摘要、權利要求和全文作為語料所組成。
步驟C,將自動抽取出的術語,組成術語庫,再由人工輔助確認。
所述步驟B中,進一步包括以下步驟:
步驟B1,以專利領域文獻庫為單位,根據統計的方法,尋找重復出現的字串,并記錄重復字串的特征。
所述重復字符串的特征包括字符串的出現的文檔率、總頻次、出現位置。
步驟B2,根據文檔率和總頻次以及出現位置計算重復串的特征值,計算方法如下:特征值分為兩部分,文檔內特征值(wi)和文檔間特征值(wg)。文檔內特征值由文檔內部的分布情況計算,文檔間特征值主要根據重復串在文檔集合中出現的情況計算。最后的特征值為二者的乘積:w=wi×wg
文檔內特征值
由于專利文本具有明確的篇章結構,不同的章節具有不同的重要性,因此,我們可以對每一個章節進行主觀評價特征值,那么一個重復串在全文的特征值(即文檔內特征值)就可以是由若干個章節內的特征值(wip)的總和。
我們主要研究在一個章節內的特征值分配方案。假設一個章節的特征值為wp,那么重復串在該章節內的特征值可表示為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中獻電子技術開發中心,未經北京中獻電子技術開發中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910162380.8/2.html,轉載請聲明來源鉆瓜專利網。





