[發明專利]一種共享圖書系統中圖書內容審核的方法在審

申請號：	201811084643.3	申請日：	2018-09-18
公開（公告）號：	CN109241013A	公開（公告）日：	2019-01-18
發明（設計）人：	蔡安;王勇	申請（專利權）人：	北京工業大學
主分類號：	G06F16/176	分類號：	G06F16/176;G06F16/33
代理公司：	北京思海天達知識產權代理有限公司 11203	代理人：	張慧
地址：	100124 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	圖書內容審核特征詞圖書系統用戶共享共享邏輯回歸模型圖書文字文字內容訓練過程元模型準確率解析
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供了一種共享圖書系統中圖書內容審核的方法，首先訓練圖書內容審核模型，在訓練過程中基于N元模型對特征詞進行擴展并計算每個特征詞的權值，從而提高圖書內容審核的準確率；然后解析用戶共享圖書中的文字內容，提取圖書文字內容中的特征詞并進行擴展；最后根據訓練好的圖書內容審核模型和從用戶共享圖書中提取到的特征詞以及訓練好的邏輯回歸模型判斷圖書內容是否通過審核，從而實現共享圖書系統中對于圖書內容的自動審核。

技術領域

本發明屬于共享圖書技術領域，尤其涉及一種共享圖書系統中圖書內容自動審核的方法，進一步涉及一種通過訓練圖書內容審核模型和提取共享圖書中的特征詞來進行內容審核的方法。

背景技術

隨著國民閱讀率逐年提升，圖書作為知識與信息的載體，具有被共享的需求和客觀條件。共享圖書系統不僅為人們提供了一種快捷獲取圖書資源的渠道，而且實現了對于閑置圖書資源的再利用。對于共享圖書平臺來說，對共享圖書的內容進行審核尤為重要。內容審核機制可以防止共享圖書系統成為低俗信息流通的渠道，對于提高共享圖書系統的可用性來說十分重要。但目前現存的大多數共享圖書系統中都缺少對于圖書內容審核的機制，少數具備圖書審核模塊的共享圖書系統也僅限于通過人工審核的方式對共享圖書內容進行檢查。而人工審核圖書內容的方式效率較低且出錯率高，無法較好的滿足圖書內容審核的需求。

發明內容

本發明要解決的技術問題是，提供一種共享圖書系統中圖書內容審核的方法，使得用戶共享的圖書內容可以被自動審核；本發明通過訓練圖書內容審核模型和提取圖書內容文本特征來實現此方法。

本方法首先訓練圖書內容審核模型，然后解析用戶共享圖書中的文字內容，之后提取文本內容中的特征詞并進行擴展，最后通過得到的特征詞和訓練好的圖書內容審核模型實現圖書內容進行自動審核。

為實現上述目的，本發明采用以下技術方案：

步驟1：制作正負數據集，使用數據集訓練圖書內容審核模型。

步驟2：提取用戶共享圖書中的文字內容。

步驟3：從步驟2得到的文字內容中提取特征詞并進行擴展。

步驟4：將步驟3得到的特征詞放入步驟1所得模型得到審核結果。

作為優選，步驟1具體為：

步驟1.1：將包含敏感信息的文本內容歸類為負數據集，將不包含敏感信息的文本內容歸類為正數據集；

步驟1.2：分別對正數據集和負數據集中的文本內容進行分詞；

步驟1.3：基于N-Gram算法提取并擴展特征詞；