[發明專利]一種挖掘規則關聯模型未知關聯關系的方法及裝置有效
| 申請號: | 201710556213.6 | 申請日: | 2017-07-10 |
| 公開(公告)號: | CN107315831B | 公開(公告)日: | 2019-06-07 |
| 發明(設計)人: | 李德彥;席麗娜;晉耀紅 | 申請(專利權)人: | 北京神州泰岳軟件股份有限公司;中科鼎富(北京)科技發展有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/2458;G06N20/00 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100089 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 挖掘 規則 關聯 模型 未知 關系 方法 裝置 | ||
1.一種挖掘規則關聯模型未知關聯關系的方法,其特征在于,所述方法包括:
獲取規則關聯模型和至少一個樣本信息,所述規則關聯模型包括N個元組,N為大于1的正整數,每個所述元組包括至少一個概念,所述樣本信息為選取的文本信息;
根據所述規則關聯模型的所有元組中的概念,對所述至少一個樣本信息進行標準化處理,得到至少一個標準樣本信息;
將所述至少一個標準樣本信息進行切詞和去停用詞處理,得到每個所述標準樣本信息所對應的關鍵詞集;
根據所述關鍵詞集,按照預設算法,計算得到二元關系表達式列表,二元關系表達式是所有頻繁集兩兩組合得到的集合中支持度大于或等于預設支持度的集合所包含的兩個關鍵詞的對應關系,所述頻繁集為由關鍵詞生成且支持度大于或等于預設支持度的候選集;
將所述二元關系表達式列表和所述規則關聯模型的候選關聯表達式列表進行匹配,所述候選關聯表達式列表是由至少一個候選關聯表達式所組成的列表,每個所述候選關聯表達式由所述規則關聯模型的兩個相鄰所述元組中未建立關聯關系的概念構成;
根據匹配結果,建立所述規則關聯模型的相鄰兩個元組的概念的關聯關系;
所述根據所述關鍵詞集,按照預設算法,計算得到關聯表達式列表的步驟包括;
根據所述關鍵詞集,生成與所述關鍵詞集對應的上下文詞空間向量模型;
根據所述上下文詞空間向量模型,計算得到二元關系表達式列表;
所述根據匹配結果,建立所述規則關聯模型的相鄰兩個元組的概念的關聯關系的步驟包括:
如果所述二元關系表達式列表的第一二元關系表達式與所述候選關聯表達式列表的第一候選關聯表達式相匹配,則判斷所述第一候選關聯表達式是否滿足預設條件,所述第一二元關系表達式是所述二元關系表達式列表中任意的一個二元關系表達式,所述第一候選關聯表達式是所述候選關聯表達式列表中任意的一個候選關聯表達式;
如果滿足預設條件,則建立所述規則關聯模型中所述第一候選關聯表達式對應的關聯關系。
2.如權利要求1所述的方法,其特征在于,所述根據所述規則關聯模型的所有元組中的概念,對所述至少一個樣本信息進行標準化處理的步驟包括:
判斷當前概念是否有對應的概念值表達式列表;
如果所述當前概念有對應的概念值表達式列表,則獲取所述概念值表達式列表;
將所述概念值表達式列表的每個概念值表達式與第一樣本信息進行匹配,所述第一樣本信息是所述至少一個標準樣本信息中的任意一個標準樣本信息;
如果第一概念值表達式與所述第一樣本信息相匹配,則將所述第一樣本信息中與所述第一概念值表達式相匹配的信息替換為當前概念,所述第一概念值表達式是所述概念值表達式列表的任意一個概念值表達式。
3.如權利要求2所述的方法,其特征在于,所述根據所述規則關聯模型的所有元組中的概念,對所述至少一個樣本信息進行標準化處理的步驟還包括:
如果所述當前概念沒有對應的概念值表達式列表,則將所述當前概念與所述第一樣本信息進行匹配;
如果所述當前概念與所述第一樣本信息匹配,則將所述第一樣本信息中與所述當前概念相匹配的信息替換為所述當前概念。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京神州泰岳軟件股份有限公司;中科鼎富(北京)科技發展有限公司,未經北京神州泰岳軟件股份有限公司;中科鼎富(北京)科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710556213.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能分析文檔的方法及系統
- 下一篇:一種原子化元素的錄入方法及系統





