[發明專利]基于協同自擴展的命名實體集合擴展方法及查詢推薦方法有效
| 申請號: | 201410293658.6 | 申請日: | 2014-06-26 |
| 公開(公告)號: | CN105205075B | 公開(公告)日: | 2018-12-07 |
| 發明(設計)人: | 孫樂;石貝 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 司立彬 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 協同 擴展 命名 實體 集合 方法 查詢 推薦 | ||
1.一種基于協同自擴展的命名實體集合擴展方法,其步驟為:
1)根據輸入的種子集合,對每一種子生成一模板并對該模板的質量進行評估;
2)利用評估選取的模板進行實例抽取,并建立每一所選模板的模板-實例關系;
3)對于每一所選模板,根據所有所選模板的模板-實例關系計算被該模板抽取的實例是正實例的概率,然后根據概率值選取若干正實例和具有區分能力的負實例加入到該種子集合中;
4)持續迭代上述步驟1)~3),直至該種子集合中抽取的正實例的數目達到預設的閾值;其中得到的正實例集合作為擴展后的具有同一類別的命名實體集合,負實例為該命名實體集合的邊界;
其中,對所述模板的質量進行評估的方法為:根據每個模板的抽取情況和實例的極性,將所有模板已抽取出的實體按照實體有沒有被該模板被抽取和實體是否屬于種子集合對應的語義類別劃分為四類:ep為被抽取的正實例,en為被抽取的負實例,nep為沒有被抽取的正實例,nen為沒有被抽取的負實例;然后計算該模板普適性、抽取準確率和未抽取準確率,對該模板質量進行評估;所述普適性為所述抽取準確率為所述未抽取準確率為
2.如權利要求1所述的方法,其特征在于生成所述模板的方法為:對所述種子集合中的每個種子實體,將其與待擴展語料中的句子進行字符串匹配,獲得匹配的句子;然后將被匹配的句子中的實體用通配符替換,獲得該種子實體在該句子中的上下文,作為該種子的模板。
3.如權利要求1所述的方法,其特征在于根據公式確定所抽取實例是否為正實例,如果P+(e)高于設定閾值threshold(P+)且差值大于設定值,則該實例為正實例;其中,
P(p→e,e∈I+)為模板p抽取實體e且e是正實例的概率,是模板p沒有抽取實體e且e是正實例的概率,
是指模板p抽取實體e且e是負實例的概率,是模板p未抽取實體e且e是負實例的概率;R+是所有抽取出實體e的模板所構成的集合,R-是所有沒有抽取出實體e的模板所構成的集合,I+是所有正實例構成的集合。
4.如權利要求3所述的方法,其特征在于根據公式|P+(e)-threshold(P+)|<δ選取出具有區分能力的負實例,其中,δ為一設定參考值。
5.一種查詢推薦方法,其步驟為:
1)對于一設定的命名實體,采用權利要求1~4任一所述方法從指定數據源中提取命名實體,建立一命名實體集合列表;
2)接收用戶輸入的待查詢語句時,將該待查詢語句中的命名實體替換為該命名實體集合中的另一命名實體生成查詢建議返回給該用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410293658.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種甜玉米人參奶茶及其制備方法
- 下一篇:一種電商網站的頁面信息獲取方法





