[發明專利]關聯文書的確定方法和裝置在審
| 申請號: | 201611117075.3 | 申請日: | 2016-12-07 |
| 公開(公告)號: | CN108170691A | 公開(公告)日: | 2018-06-15 |
| 發明(設計)人: | 石鵬;賈凱;李學海 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06Q50/18 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 韓建偉;張永明 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關聯 特征標簽 標簽 方法和裝置 關聯度 過濾 預先獲取 預先建立 書庫 | ||
1.一種關聯文書的確定方法,其特征在于,包括:
獲取待關聯文書的文書標簽;
利用預先建立的過濾模型對所述待關聯文書的文書標簽進行過濾,得到所述待關聯文書的特征標簽,其中,所述特征標簽為所述文書標簽中能夠表征所述待關聯文書特征的標簽;
根據所述待關聯文書的特征標簽從預先獲取的文書庫提取多個候選文書,并獲取所述多個候選文書的特征標簽;
利用所述待關聯文書的特征標簽和所述多個候選文書的特征標簽,確定所述待關聯文書和每個所述候選文書的關聯度;
基于確定的關聯度,確定所述多個候選文書中與所述待關聯文書相關聯的關聯文書。
2.根據權利要求1所述的確定方法,其特征在于,利用預先建立的過濾模型對所述待關聯文書的文書標簽進行過濾,得到所述待關聯文書的特征標簽包括:
獲取所述文書標簽中與所述過濾模型中記錄的標簽相匹配的目標標簽;
讀取所述過濾模型中記錄的所述目標標簽在候選文書中出現的概率;
在所述概率小于預定閾值的情況下,將所述目標標簽確定為所述特征標簽。
3.根據權利要求1所述的確定方法,其特征在于,根據所述待關聯文書的特征標簽從預先獲取的文書庫提取多個候選文書包括:
確定所述待關聯文書的各個特征標簽所屬的類別;
根據所述類別從所述文書庫中,提取所述候選文書,其中,所述候選文書具有所述類別的特征標簽。
4.根據權利要求1或3所述的確定方法,其特征在于,利用所述待關聯文書的特征標簽和所述多個候選文書的特征標簽,確定所述待關聯文書和每個所述候選文書的關聯度包括:
獲取設置的各個所述類別的權重;
利用如下計算方式確定所述待關聯文書和每個所述候選文書的關聯度G:
其中,Gi表示候選文書i與所述待關聯文書的關聯度,n表示所述待關聯文書的特征標簽的總數,aik表示候選文書i的特征標簽k與所述待關聯文書的特征標簽k的匹配參數,bik表示特征標簽k所屬類別的權重,n、i和k均為自然數。
5.根據權利要求4所述的確定方法,其特征在于,所述方法還包括:
若所述候選文書i的特征標簽k與所述待關聯文書的特征標簽k的值相匹配,則匹配參數為第一值;
若所述候選文書i的特征標簽k與所述待關聯文書的特征標簽k的值不匹配,則匹配參數為第二值。
6.根據權利要求1所述的確定方法,其特征在于,在利用預先建立的過濾模型對所述待關聯文書的文書標簽進行過濾之前,所述方法還包括:
獲取多個樣本文書;
對每個所述樣本文書進行分詞處理,得到每個所述樣本文書的分詞結果,并將所述分詞結果作為所述樣本文書的標簽;
統計所有所述樣本文書的標簽,得到統計結果,其中,所述統計結果至少包括分詞得到所有標簽、每個所述標簽出現在所有所述樣本文書中的次數、以及每個所述文書標簽在所述樣本文書中出現的概率;
保存統計結果,生成所述過濾模型。
7.根據權利要求1所述的確定方法,其特征在于,基于確定的關聯度,確定所述多個候選文書中與所述待關聯文書相關聯的關聯文書包括:
將與所述待關聯文書的關聯度超過預定閾值的候選文書確定為所述關聯文書;或者,
對候選文書的多個關聯度進行排序,將排序在前N位或后N位的關聯度對應的候選文書確定為所述關聯文書。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611117075.3/1.html,轉載請聲明來源鉆瓜專利網。





