[發明專利]一種共享圖書系統中圖書內容審核的方法在審

申請號：	201811084643.3	申請日：	2018-09-18
公開（公告）號：	CN109241013A	公開（公告）日：	2019-01-18
發明（設計）人：	蔡安;王勇	申請（專利權）人：	北京工業大學
主分類號：	G06F16/176	分類號：	G06F16/176;G06F16/33
代理公司：	北京思海天達知識產權代理有限公司 11203	代理人：	張慧
地址：	100124 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	圖書內容審核特征詞圖書系統用戶共享共享邏輯回歸模型圖書文字文字內容訓練過程元模型準確率解析
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種共享圖書系統中圖書內容審核的方法，其特征在于，包括以下步驟：

步驟1、訓練圖書內容審核模型，在訓練過程中基于N元模型對特征詞進行擴展并計算每個特征詞的權；

步驟2、解析用戶共享圖書中的文字內容，提取圖書文字內容中的特征詞并進行擴展；

步驟3、根據訓練好的圖書內容審核模型和從用戶共享圖書中提取到的特征詞以及訓練好的邏輯回歸模型判斷圖書內容是否通過審核，實現共享圖書系統中對于圖書內容的自動審核。

2.一種共享圖書系統中圖書內容審核的方法，其特征在于，包括以下步驟：

步驟1：制作正負數據集，使用數據集訓練圖書內容審核模型；

步驟2：提取用戶共享圖書中的文字內容；

步驟3：從步驟2得到的文字內容中提取特征詞并進行擴展；

步驟4：將步驟3得到的特征詞放入步驟1所得模型得到審核結果。

3.如權利要求2所述共享圖書系統中圖書內容審核的方法，其特征在于，步驟1具體為：

步驟1.1：將包含敏感信息的文本內容歸類為負數據集，將不包含敏感信息的文本內容歸類為正數據集；

步驟1.2：分別對正數據集和負數據集中的文本內容進行分詞；

步驟1.3：基于N-Gram算法提取并擴展特征詞；

步驟1.4：根據公式(1-1)和公式(1-2)分別計算步驟1.3中每個特征詞在正數據集中的詞頻TF_p和在負數據集中的詞頻TF_n，然后根據公式(1-3)得到每個特征詞的權值IDF；

步驟1.5：將每個特征詞和相應的權值IDF放入詞袋模型。

4.如權利要求2所述共享圖書系統中圖書內容審核的方法，其特征在于，步驟3具體為：

步驟3.1：對步驟2得到的文字內容進行分詞；

步驟3.2：基于N-Gram算法提取并擴展特征詞。

5.如權利要求2所述共享圖書系統中圖書內容審核的方法，其特征在于，步驟4具體為：

步驟4.1：將步驟3得到的每個特征詞與步驟1得到的詞袋模型中的詞語相匹配，得到每個特征詞所對應的權值；

步驟4.2：將步驟4.1中得到的每個特征詞的權值IDF放入預先訓練好的邏輯回歸模型中，將得到的結果與預設閾值進行比較，得到審核結果。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京工業大學，未經北京工業大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811084643.3/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】