[發明專利]一種共享圖書系統中圖書內容審核的方法在審
| 申請號: | 201811084643.3 | 申請日: | 2018-09-18 |
| 公開(公告)號: | CN109241013A | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 蔡安;王勇 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/176 | 分類號: | G06F16/176;G06F16/33 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖書內容 審核 特征詞 圖書系統 用戶共享 共享 邏輯回歸模型 圖書文字 文字內容 訓練過程 元模型 準確率 解析 | ||
1.一種共享圖書系統中圖書內容審核的方法,其特征在于,包括以下步驟:
步驟1、訓練圖書內容審核模型,在訓練過程中基于N元模型對特征詞進行擴展并計算每個特征詞的權;
步驟2、解析用戶共享圖書中的文字內容,提取圖書文字內容中的特征詞并進行擴展;
步驟3、根據訓練好的圖書內容審核模型和從用戶共享圖書中提取到的特征詞以及訓練好的邏輯回歸模型判斷圖書內容是否通過審核,實現共享圖書系統中對于圖書內容的自動審核。
2.一種共享圖書系統中圖書內容審核的方法,其特征在于,包括以下步驟:
步驟1:制作正負數據集,使用數據集訓練圖書內容審核模型;
步驟2:提取用戶共享圖書中的文字內容;
步驟3:從步驟2得到的文字內容中提取特征詞并進行擴展;
步驟4:將步驟3得到的特征詞放入步驟1所得模型得到審核結果。
3.如權利要求2所述共享圖書系統中圖書內容審核的方法,其特征在于,步驟1具體為:
步驟1.1:將包含敏感信息的文本內容歸類為負數據集,將不包含敏感信息的文本內容歸類為正數據集;
步驟1.2:分別對正數據集和負數據集中的文本內容進行分詞;
步驟1.3:基于N-Gram算法提取并擴展特征詞;
步驟1.4:根據公式(1-1)和公式(1-2)分別計算步驟1.3中每個特征詞在正數據集中的詞頻TFp和在負數據集中的詞頻TFn,然后根據公式(1-3)得到每個特征詞的權值IDF;
步驟1.5:將每個特征詞和相應的權值IDF放入詞袋模型。
4.如權利要求2所述共享圖書系統中圖書內容審核的方法,其特征在于,步驟3具體為:
步驟3.1:對步驟2得到的文字內容進行分詞;
步驟3.2:基于N-Gram算法提取并擴展特征詞。
5.如權利要求2所述共享圖書系統中圖書內容審核的方法,其特征在于,步驟4具體為:
步驟4.1:將步驟3得到的每個特征詞與步驟1得到的詞袋模型中的詞語相匹配,得到每個特征詞所對應的權值;
步驟4.2:將步驟4.1中得到的每個特征詞的權值IDF放入預先訓練好的邏輯回歸模型中,將得到的結果與預設閾值進行比較,得到審核結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811084643.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種虛擬機文件處理方法及裝置
- 下一篇:多方安全計算方法及裝置、電子設備





