[發明專利]關聯文書的確定方法和裝置在審
| 申請號: | 201611117075.3 | 申請日: | 2016-12-07 |
| 公開(公告)號: | CN108170691A | 公開(公告)日: | 2018-06-15 |
| 發明(設計)人: | 石鵬;賈凱;李學海 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06Q50/18 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 韓建偉;張永明 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關聯 特征標簽 標簽 方法和裝置 關聯度 過濾 預先獲取 預先建立 書庫 | ||
本發明公開了一種關聯文書的確定方法和裝置。其中,該方法包括:獲取待關聯文書的文書標簽;利用預先建立的過濾模型對待關聯文書的文書標簽進行過濾,得到待關聯文書的特征標簽,其中,特征標簽為文書標簽中能夠表征待關聯文書特征的標簽;根據所述待關聯文書的特征標簽從預先獲取的文書庫提取多個候選文書,并獲取多個候選文書的特征標簽;利用待關聯文書的特征標簽和多個候選文書的特征標簽,確定待關聯文書和每個候選文書的關聯度;基于確定的關聯度,確定多個候選文書中與待關聯文書相關聯的關聯文書。本發明解決了獲取關聯文書的效率低的技術問題。
技術領域
本發明涉及數據處理領域,具體而言,涉及一種關聯文書的確定方法和裝置。
背景技術
隨著我國司法領域信息化速度的加快,產生了大量的司法案件文書,這些文書都是以離散的形式存在于網頁及計算機的文件系統中,屬于離散的非關系存儲模式,在面對海量的司法文書數據時,一篇司法文書往往只代表了一個案件整個審理流程中的某一個環節,司法人員在查閱這篇文書的同時,經常需要了解到這篇司法文書所從屬的案件中其它環節的審理情況(即該案件的其它司法文書)。為了解決該問題,現有技術中,在文書錄入(包括錄入網站頁面或錄入計算機文件系統)的同時,人為地將同一案件各個司法環節產生的文書歸類。采用這樣的處理方式,一方面需要投入大量的司法專業人員人力和時間,另一方面,這種人為劃分的文檔分類信息極易丟失,并且也非常不便于修改。
針對上述獲取關聯文書的效率低的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種關聯文書的確定方法和裝置,以至少解決獲取關聯文書的效率低的技術問題。
根據本發明實施例的一個方面,提供了一種關聯文書的確定方法,該方法包括:獲取待關聯文書的文書標簽;利用預先建立的過濾模型對待關聯文書的文書標簽進行過濾,得到待關聯文書的特征標簽,其中,特征標簽為文書標簽中能夠表征待關聯文書特征的標簽;根據所述待關聯文書的特征標簽從預先獲取的文書庫提取多個候選文書,并獲取多個候選文書的特征標簽;利用待關聯文書的特征標簽和多個候選文書的特征標簽,確定待關聯文書和每個候選文書的關聯度;基于確定的關聯度,確定多個候選文書中與待關聯文書相關聯的關聯文書。
進一步地,利用預先建立的過濾模型對待關聯文書的文書標簽進行過濾,得到待關聯文書的特征標簽包括:獲取文書標簽中與過濾模型中記錄的標簽相匹配的目標標簽;讀取過濾模型中記錄的目標標簽在候選文書中出現的概率;在概率小于預定閾值的情況下,將目標標簽確定為特征標簽。
進一步地,根據所述待關聯文書的特征標簽從預先獲取的文書庫提取多個候選文書包括:確定待關聯文書的各個特征標簽所屬的類別;根據類別從文書庫中,提取候選文書,其中,候選文書具有類別的特征標簽。
進一步地,利用待關聯文書的特征標簽和多個候選文書的特征標簽,確定待關聯文書和每個候選文書的關聯度包括:獲取設置的各個類別的權重;利用如下計算方式確定所述待關聯文書和每個所述候選文書的關聯度G:其中,Gi表示候選文書i與所述待關聯文書的關聯度,n表示所述待關聯文書的特征標簽的總數,aik表示候選文書i的特征標簽k與所述待關聯文書的特征標簽k的匹配參數,bik表示特征標簽k所屬類別的權重,n、i和k均為自然數。
進一步地,方法還包括:若候選文書i的特征標簽k與待關聯文書的特征標簽k的值相匹配,則匹配參數為第一值;若候選文書i的特征標簽k與待關聯文書的特征標簽k的值不匹配,則匹配參數為第二值。
進一步地,在利用預先建立的過濾模型對待關聯文書的文書標簽進行過濾之前,方法還包括:獲取多個樣本文書;對每個樣本文書進行分詞處理,得到每個樣本文書的分詞結果,并將分詞結果作為樣本文書的標簽;統計所有樣本文書的標簽,得到統計結果,其中,統計結果至少包括分詞得到所有標簽、每個標簽出現在所有樣本文書中的次數、以及每個文書標簽在樣本文書中出現的概率;保存統計結果,生成過濾模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611117075.3/2.html,轉載請聲明來源鉆瓜專利網。





