[發明專利]一種從Web網頁中獲取漢語簡稱的方法在審
| 申請號: | 201110253121.3 | 申請日: | 2011-08-31 |
| 公開(公告)號: | CN102955819A | 公開(公告)日: | 2013-03-06 |
| 發明(設計)人: | 王石;丁遠鈞;符建輝;王衛民 | 申請(專利權)人: | 鎮江諾尼基智能技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 汪旭東 |
| 地址: | 212009 江蘇省鎮江市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 web 網頁 獲取 漢語 簡稱 方法 | ||
技術領域
本發明涉及中文信息處理和信息檢索領域的簡稱獲取技術,尤其涉及一種從Web網頁中獲取漢語簡稱的方法,從Web網頁上獲取多學科、大規模、高準確率的漢語簡稱的方法。
背景技術
自然語言處理是計算機科學領域與人工智能領域中的一個重要問題。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。隨著計算機和互聯網的廣泛應用,計算機可處理的自然語言文本數量空前增長,面向海量信息的文本挖掘、信息提取、跨語言信息處理、人機交互等應用需求急速增長,自然語言處理的對象也從小規模受限語言處理轉向大規模真實文本處理,其研究必將對人們的生活產生深遠的影響。
中文信息處理是研究如何利用計算機對漢語信息進行自動處理。漢語是一門意合語言,和西方語言相比,缺少顯式的標記,語法、語義、語用方面也更加靈活,增加了計算機理解和處理的難度,要讓計算機能夠處理中文信息,尚有許多困難需要克服。目前,中文信息處理已經在語音識別、分詞、機器翻譯等領域取得了一些成果。中文信息自動化處理程度的提升,將對我國的科技、文化、經濟、安全等帶來可觀的效益。
信息檢索研究如何從紛繁復雜的大量信息中快速、準確獲取所需信息的技術。信息檢索技術經過多年的發展,目前已經相當成熟,新型信息檢索技術正朝智能化、動態化、多樣化、個性化等方向發展。
全稱(Full?Name,Fn)是對名稱的完整稱呼,簡稱(Abbreviation,An)是為了表達的簡潔明快,而對全稱進行精簡壓縮后得到的稱呼,若Fn和An具有全簡稱關系,則稱Fn為An的全稱,An為Fn的簡稱,記作FA(Fn,An)。由全稱到簡稱,可以看作是一個信息量的壓縮過程,由簡稱到全稱,則可以看作是一個解壓的過程,例如:對c1=“中國科學院計算技術研究所”進行壓縮,得到c2=“中國科學院計算所”,再對c2進行壓縮,得到c3=“中科院計算所”,對c3解壓得到c2,再對c2解壓得到c1。全稱和簡稱都是相對的概念,比如在上例中,c2相對于c1是簡稱,但相對于c3卻是全稱,單獨講c2是全稱或簡稱都是沒有意義的。
全簡稱關系獲取作為文本知識獲?。↘nowledge?Acquisition?from?Text,KAT)和信息檢索等應用中一個基本而又關鍵的問題,其獲取方法可以分為兩大類:一類是基于模式的方法,主要利用語言學和自然語言處理技術,通過詞法分析和語法分析提取關系模式,然后利用模式匹配獲取全簡稱關系,該方法準確率依賴于語言學知識和模式庫;另一類是基于統計的方法,主要基于語料庫和統計語言模型,通過計算概念之間的關聯度來獲取全簡稱關系,該方法準確率和效率難以達到理想的實用要求。全簡稱關系的獲取問題又可以從兩個角度來看:一個是挖掘的角度,就是在沒有外界輸入的條件下獲取全簡稱對;另一個是查找的角度,就是已知全稱找簡稱或已知簡稱找全稱。
本發明中所提到的“全稱”或“簡稱”,如無特別說明,均指漢語全稱或漢語簡稱。
發明內容
針對現有的全簡稱關系獲取技術中具有的局限性或者準確率不高的缺陷,本發明提供一種準確率高且適用于多學科、超大規模的一種從Web網頁中獲取漢語簡稱的方法。
????為了解決上述問題,本發明提供了一種從Web網頁中獲取漢語簡稱的方法,包括一下步驟:
步驟1、輸入一個給定的漢語全稱Fn;
步驟2、選擇查詢模式來構造查詢項,將查詢項提交到Google搜索引擎中搜索,保存前N項錨文本作為錨語料;
步驟3、通過正則表達式,從錨語料中獲取出包含查詢項的全簡稱關系的句子,保存下來作為全簡稱語料;
步驟4、利用簡稱提取算法EAN從全簡稱語料中提取出候選簡稱,形成候選簡稱集合;
步驟5、對候選簡稱集合進行基于全簡稱關系約束的分類,從而形成帶有類別標注的候選簡稱集合;
步驟6、對候選簡稱集合進行基于全簡稱關系約束和全簡稱關系圖的聯合驗證,從而形成簡稱集合;
步驟7、對簡稱集合中同類型的簡稱進行優先級排序,從而形成帶有類別標注的有序簡稱集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鎮江諾尼基智能技術有限公司,未經鎮江諾尼基智能技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110253121.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:雙焊絲焊接的弧坑控制方法
- 下一篇:液滴影像法界面流變測試方法和裝置





