[發(fā)明專利]用于在中文文檔中識別化學(xué)名稱的方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201110254753.1 | 申請日: | 2011-08-31 |
| 公開(公告)號: | CN102955773A | 公開(公告)日: | 2013-03-06 |
| 發(fā)明(設(shè)計)人: | 吳賢;張俐;陳穎;蘇中 | 申請(專利權(quán))人: | 國際商業(yè)機器公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京市中咨律師事務(wù)所 11247 | 代理人: | 張亞非;于靜 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 中文 文檔 識別 化學(xué) 名稱 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明總體上涉及信息處理技術(shù)領(lǐng)域,特別地,涉及一種用于在中文文檔中識別化學(xué)名稱的方法及系統(tǒng)。
背景技術(shù)
目前,隨著化學(xué)領(lǐng)域的科學(xué)技術(shù)的發(fā)展,各種涉及化學(xué)領(lǐng)域的科技文獻也日益增多,比如涉及化學(xué)的科技論文、公開的專利文獻等,其中中文文檔的數(shù)量也是愈來愈多。在這些文獻的計算機深度處理中,化學(xué)名稱識別技術(shù)顯得非常重要。本領(lǐng)域技術(shù)人員理解化學(xué)名稱是指出現(xiàn)在專業(yè)的化學(xué)文檔中,可以唯一的指定相應(yīng)的化學(xué)分子結(jié)構(gòu)的名稱。中文化學(xué)名稱是根據(jù)IUPAC命名法和中文通用名發(fā)展而來的。化學(xué)名稱識別技術(shù)的目的在于自動從自然語言文檔中檢測和標識出化學(xué)名稱,該技術(shù)對化學(xué)或者生化領(lǐng)域中的各種數(shù)據(jù)挖掘應(yīng)用非常有用。
目前,在英文化學(xué)名稱識別方面人們作了一些研究,主要可以分為兩類:一種是利用機器學(xué)習模型對訓(xùn)練數(shù)據(jù)進行學(xué)習來形成標注器(annotators),并利用所述標注器來從純文本文件中識別化學(xué)名稱,機器學(xué)習模型主要有Hidden?Markov?Model(HMM)(Freitag?and?McCallum,1999),Maximum?Entropy?Markov?Model(MeMM)(McCallum?et?al.,2000)or?Conditional?Random?Fields(CRF)(Lafferty?et?al.,2001)。另外一種是基于專家設(shè)計的規(guī)則和字典來實現(xiàn)化學(xué)名稱識別。
目前還沒有一種中文化學(xué)名稱識別技術(shù)。其原因在于:首先,與英語比較而言,中文在語言結(jié)構(gòu)上就比較復(fù)雜,比如中文不會存在術(shù)語與術(shù)語之間的邊界(英文每個詞之間會用空格隔開),中文也不會存在可以利用的大寫的信息等。獨特的語言特點阻礙了將英文的化學(xué)名稱識別技術(shù)運用到中文環(huán)境中。第二,目前中文化學(xué)名稱的命名法并不是精確地符合英文的化學(xué)名稱命名體系,而是一種混合了中國傳統(tǒng)命名方法和IUPAC標準。因此如果通過模型學(xué)習的方式,就需要至少兼顧中國傳統(tǒng)命名方法和IUPAC命名標準。第三,目前可用于中文化學(xué)名稱識別的可利用的現(xiàn)成化學(xué)名稱資源不多,從而很難通過利用模型學(xué)習的方式來進行中文化學(xué)名稱的識別。
因此目前需要一種用于在中文文檔中識別化學(xué)名稱的方法和系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明一方面提供用于在中文文檔中識別化學(xué)名稱的方法,包括:接收包括化學(xué)名稱的中文文檔;識別所述文檔中的化學(xué)名稱片段;識別所述文檔中的非化學(xué)名稱片段;以及基于所識別的化學(xué)名稱片段和非化學(xué)名稱片段,合并所述化學(xué)名稱片段以得到所述化學(xué)名稱。
本發(fā)明另一方面提供一種用于在中文文檔中識別化學(xué)名稱的系統(tǒng),包括:接收裝置,被配置為接收包括化學(xué)名稱的中文文檔;第一識別裝置,被配置為識別所述文檔中的化學(xué)名稱片段;第二識別裝置,被配置為識別所述文檔中的非化學(xué)名稱片段;以及合并裝置,被配置為基于所識別的化學(xué)名稱片段和非化學(xué)名稱片段,合并所述化學(xué)名稱片段以得到所述化學(xué)名稱。
本發(fā)明的具體實施方式可以比較有效地從化學(xué)文獻中識別化學(xué)名稱。
附圖說明
為了對本發(fā)明實施例的特征和優(yōu)點進行詳細說明,將參照以下附圖。如果可能的話,在附圖和描述中使用相同或者類似的參考標號以指代相同或者類似的部分。其中:
圖1示出了本發(fā)明用于在中文文檔中識別化學(xué)名稱的第一具體實施方式;
圖2示出了識別中文文檔中的化學(xué)名稱片段的優(yōu)選具體實施方式;
圖3示出了識別中文文檔中的非化學(xué)名稱片段的優(yōu)選具體實施方式;
圖4示出了合并化學(xué)名稱片段的優(yōu)選具體實施方式;
圖5示出了本發(fā)明用于在中文文檔中識別化學(xué)名稱的第二具體實施方式;
圖6示出了本發(fā)明用于在中文文檔中識別化學(xué)名稱的系統(tǒng)的框架圖;
圖7示出了可以實現(xiàn)根據(jù)本發(fā)明的實施例的計算設(shè)備的結(jié)構(gòu)方框圖。
具體實施方式
現(xiàn)在將參考本發(fā)明的示例性實施例進行詳細的描述,在附圖中圖解說明了所述實施例的示例,其中相同的參考數(shù)字始終指示相同的元件。應(yīng)當理解,本發(fā)明并不限于所公開的示例實施例。還應(yīng)當理解,并非所述方法和設(shè)備的每個特征對于實施任一權(quán)利要求所要求保護的本發(fā)明都是必要的。此外,在整個公開中,當顯示或描述處理或方法時,方法的步驟可以以任何順序或者同時執(zhí)行,除非從上下文中能清楚一個步驟依賴于先執(zhí)行的另一步驟。此外,步驟之間可以有顯著的時間間隔。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110254753.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





