[發明專利]基于協同自擴展的命名實體集合擴展方法及查詢推薦方法有效
| 申請號: | 201410293658.6 | 申請日: | 2014-06-26 |
| 公開(公告)號: | CN105205075B | 公開(公告)日: | 2018-12-07 |
| 發明(設計)人: | 孫樂;石貝 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 司立彬 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 協同 擴展 命名 實體 集合 方法 查詢 推薦 | ||
本發明公開了一種基于協同自擴展的命名實體集合擴展方法及查詢推薦方法。本方法為:1)根據輸入的種子集合,對每一種子生成一模板并對該模板的質量進行評估;2)利用選取的模板進行實例抽取,并建立每一所選模板的模板?實例關系;3)對于每一所選模板,根據所有所選模板的模板?實例關系計算被該模板抽取的實例是正實例的概率,然后根據概率值選取若干正實例和具有區分能力的負實例加入到該種子集合中;4)持續迭代上述步驟1)~3),直至該種子集合中抽取的正實例的數目達到預設的閾值;其中得到的正實例集合作為擴展后的具有同一類別的命名實體集合,負實例為該命名實體集合的邊界。本發明大大增強了種子的描述能力,提高了查詢性能。
技術領域
本發明涉及一種命名實體集合擴展方法,特別是涉及一種基于協同自擴展的命名實體集合擴展方法及查詢推薦方法,屬于自然語言處理技術領域。
背景技術
隨著Web2.0的高速發展,互聯網上的信息越來越豐富,其中大部分內容是由海量用戶依照個人習慣和興趣發布的,比如私人博客、主題論壇、網絡百科全書等。如何從這些海量信息中抽取出有效信息并進行組織和利用成為大數據時代的一個挑戰。通過抽取固定類別下的命名實體列表,多源、異構的互聯網信息得到了有效地抽取、組織和利用。命名實體集合擴展是實現上述目標的關鍵技術之一。
另一方面,命名實體是文本中承載信息的重要語言單位,抽取出的命名實體列表可以應用于知識庫構建,查詢推薦等。因此,抽取出文本中的命名實體對理解文本內容有重要意義。然而,現今的互聯網信息具有多源、異構、海量等特點,這些特點對信息抽取技術提出了新的要求。在這種情況下,傳統命名實體抽取僅僅依靠原有的基于規則和統計的抽取技術已經無法應對新的挑戰。為此,如何利用命名實體集合擴展技術獲取命名實體列表是自然語言處理技術實用化的重要因素之一。
綜上,構建智能信息服務的核心之一是知識獲取和自然語言理解,而能夠識別實體并構建命名實體列表的命名實體集合擴展是提供自然語言理解基礎知識的一項關鍵技術。
由于半監督學習只需要很少的訓練語料就能獲得較高的準確率,目前命名實體集合擴展的方法主要是采用基于自擴展的半監督學習方法。該方法主要有三個步驟:1)通過輸入目標語義類別中的種子實體,抽取包圍種子實體的模板。2)使用抽取的模板對整個文檔集合進行實體抽取。3)對抽取出的候選實體進行篩選,將篩選出的實體輸出,并加入種子實體集合。自擴展算法會持續對這三步進行迭代,直至輸出實體的數目達到預定義的閾值。
但是通常的自擴展方法往往有下面兩個問題:
1)初始種子描述能力不足。該問題是指僅僅使用正實例不能準確地定義被抽取的語義類別。比如針對已有的實體集合擴展系統,當用戶輸入種子{“北京”,“東京”,“倫敦”}時,系統并不知道目標實體的語義類別究竟是首都,還是普通城市,甚至是一般地點。因此,系統返回的結果可能會包含城市,也可能會包含其他任意的地點名稱。這主要因為初始種子集合{“北京”,“東京”,“倫敦”}沒有足夠的描述能力來確定目標實體的語義類別。
2)語義漂移。該問題是指在使用自擴展算法進行迭代抽取的過程中,被抽取的目標實體的語義類別會發生語義漂移現象。這是因為在抽取過程中,被抽取出的候選實體會包含噪聲。比如,在抽取IT Company這個類別時,“Apple”被抽取出加入到種子實體集合中。然而由于歧義,關于水果的模板在后續步驟中也會被抽取出來,從而抽取出其他具有水果語義的實體和模板。隨著迭代過程的進行,這將造成被抽取的類別由IT Company向Fruit漂移,最終造成抽取性能大幅下降。
發明內容
針對命名實體集合擴展中存在的初始種子描述能力不足和語義漂移,本發明提供了一種基于協同自擴展的命名實體集合擴展方法,通過引入負實例來表示擴展邊界,增強種子的描述能力,并自擴展的過程中自動產生能夠持續擴展的正實例和負實例。本發明有效地維護了目標實體的語義邊界,較好地解決了語義漂移問題。
本發明所采用的技術方案如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410293658.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種甜玉米人參奶茶及其制備方法
- 下一篇:一種電商網站的頁面信息獲取方法





