[發明專利]一種共享圖書系統中圖書內容審核的方法在審
| 申請號: | 201811084643.3 | 申請日: | 2018-09-18 |
| 公開(公告)號: | CN109241013A | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 蔡安;王勇 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/176 | 分類號: | G06F16/176;G06F16/33 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖書內容 審核 特征詞 圖書系統 用戶共享 共享 邏輯回歸模型 圖書文字 文字內容 訓練過程 元模型 準確率 解析 | ||
本發明提供了一種共享圖書系統中圖書內容審核的方法,首先訓練圖書內容審核模型,在訓練過程中基于N元模型對特征詞進行擴展并計算每個特征詞的權值,從而提高圖書內容審核的準確率;然后解析用戶共享圖書中的文字內容,提取圖書文字內容中的特征詞并進行擴展;最后根據訓練好的圖書內容審核模型和從用戶共享圖書中提取到的特征詞以及訓練好的邏輯回歸模型判斷圖書內容是否通過審核,從而實現共享圖書系統中對于圖書內容的自動審核。
技術領域
本發明屬于共享圖書技術領域,尤其涉及一種共享圖書系統中圖書內容自動審核的方法,進一步涉及一種通過訓練圖書內容審核模型和提取共享圖書中的特征詞來進行內容審核的方法。
背景技術
隨著國民閱讀率逐年提升,圖書作為知識與信息的載體,具有被共享的需求和客觀條件。共享圖書系統不僅為人們提供了一種快捷獲取圖書資源的渠道,而且實現了對于閑置圖書資源的再利用。對于共享圖書平臺來說,對共享圖書的內容進行審核尤為重要。內容審核機制可以防止共享圖書系統成為低俗信息流通的渠道,對于提高共享圖書系統的可用性來說十分重要。但目前現存的大多數共享圖書系統中都缺少對于圖書內容審核的機制,少數具備圖書審核模塊的共享圖書系統也僅限于通過人工審核的方式對共享圖書內容進行檢查。而人工審核圖書內容的方式效率較低且出錯率高,無法較好的滿足圖書內容審核的需求。
發明內容
本發明要解決的技術問題是,提供一種共享圖書系統中圖書內容審核的方法,使得用戶共享的圖書內容可以被自動審核;本發明通過訓練圖書內容審核模型和提取圖書內容文本特征來實現此方法。
本方法首先訓練圖書內容審核模型,然后解析用戶共享圖書中的文字內容,之后提取文本內容中的特征詞并進行擴展,最后通過得到的特征詞和訓練好的圖書內容審核模型實現圖書內容進行自動審核。
為實現上述目的,本發明采用以下技術方案:
步驟1:制作正負數據集,使用數據集訓練圖書內容審核模型。
步驟2:提取用戶共享圖書中的文字內容。
步驟3:從步驟2得到的文字內容中提取特征詞并進行擴展。
步驟4:將步驟3得到的特征詞放入步驟1所得模型得到審核結果。
作為優選,步驟1具體為:
步驟1.1:將包含敏感信息的文本內容歸類為負數據集,將不包含敏感信息的文本內容歸類為正數據集;
步驟1.2:分別對正數據集和負數據集中的文本內容進行分詞;
步驟1.3:基于N-Gram算法提取并擴展特征詞;
步驟1.4:根據公式(1-1)和公式(1-2)分別計算步驟1.3中每個特征詞在正數據集中的詞頻TFp和在負數據集中的詞頻TFn,然后根據公式(1-3)得到每個特征詞的權值IDF;
步驟1.5:將每個特征詞和相應的權值IDF放入詞袋模型;
作為優選,步驟3具體為:
步驟3.1:對步驟2得到的文字內容進行分詞;
步驟3.2:基于N-Gram算法提取并擴展特征詞。
作為優選,步驟4具體為:
步驟4.1:將步驟3得到的每個特征詞與步驟1得到的詞袋模型中的詞語相匹配,得到每個特征詞所對應的權值;
步驟4.2:將步驟4.1中得到的每個特征詞的權值IDF放入預先訓練好的邏輯回歸模型中,將得到的結果與預設閾值進行比較,得到審核結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811084643.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種虛擬機文件處理方法及裝置
- 下一篇:多方安全計算方法及裝置、電子設備





