[發明專利]面向網絡直播場景的用戶言論語義分析方法在審
| 申請號: | 201811523923.X | 申請日: | 2018-12-13 |
| 公開(公告)號: | CN109657241A | 公開(公告)日: | 2019-04-19 |
| 發明(設計)人: | 張暉;李吉媛 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 姚姣陽 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡直播 語義分析 預處理 用戶輸入內容 場景 分類器模型 用戶輸入區 不良信息 分詞處理 禁止發送 模型判斷 人工成本 實時獲取 提醒用戶 向量表示 詞向量 詞序列 實時性 無人工 自動地 構建 語料 發送 監督 直播 節約 源頭 保證 | ||
1.一種面向網絡直播場景的用戶言論語義分析方法,其特征在于,包括如下步驟:
S1、實時獲取網絡直播平臺直播間內用戶輸入區的內容,并進行預處理;
S2、將預處理過的內容進行分詞處理,保持詞序列順序不變;
S3、根據語料詞典得到每個詞的詞向量,進而得到用戶輸入內容的向量表示;
S4、構建并訓練LSTM型雙向RNN語義分析分類器模型;
S5、依據S4中建立的模型判斷用戶輸入內容是否包含不良信息,若不包含則正常發送,否則提醒用戶并禁止發送。
2.根據權利要求1所述的面向網絡直播場景的用戶言論語義分析方法,其特征在于,S1中所述預處理具體包括:去除與文字內容無關的多余信息,所述多余信息包括表情圖片、表情符號、數字符號以及拼音符號。
3.根據權利要求1所述的面向網絡直播場景的用戶言論語義分析方法,其特征在于,S3中所述根據語料詞典得到每個詞的詞向量具體包括:將每個詞表示成一個獨熱向量,向量的維度為語料詞典的長度;所述語料詞典由網絡直播平臺上的語料形成,所述語料詞典中的字詞不重復。
4.根據權利要求1所述的面向網絡直播場景的用戶言論語義分析方法,其特征在于,S4具體包括如下步驟:
S41、收集網絡直播平臺上各種類型直播中的用戶輸入內容,并逐條進行標記,將包含不良信息的內容標記為0,否則標記為1;
S42、將收集的用戶輸入內容進行預處理,劃分訓練集和測試集,構建語料詞典;
S43、根據語料詞典把用戶輸入文本內容用詞向量的形式表示出來,按照詞序列順序將詞向量進行連接;
S44、將帶有標簽的訓練數據輸入到LSTM型雙向RNN語義分析分類器中進行訓練,獲取最佳的神經網絡模型參數,最終得到LSTM型雙向RNN語義分析分類器模型。
5.根據權利要求4所述的面向網絡直播場景的用戶言論語義分析方法,其特征在于,S44具體包括如下步驟:
S441、設計LSTM型雙向RNN結構、構建LSTM型雙向RNN語義分析分類器,得到LSTM型雙向RNN語義分析分類器模型;
S442、訓練模型參數,完成對LSTM型雙向RNN語義分析分類器模型的訓練。
6.根據權利要求4所述的面向網絡直播場景的用戶言論語義分析方法,其特征在于:S44中所述LSTM型雙向RNN語義分析分類器包括按序依次連接的輸入層、隱藏層及輸出層;
所述輸入層的輸入為代表文本內容的詞序列;
所述隱藏層由多個LSTM單元相連接而成,其中包括按照詞序列正向傳輸的LSTM單元和按照詞序列反向傳輸的LSTM的單元。
7.根據權利要求5所述的面向網絡直播場景的用戶言論語義分析方法,其特征在于:所述輸出層為分類器,所述分類器為二分類器。
8.根據權利要求5所述的面向網絡直播場景的用戶言論語義分析方法,其特征在于:所述LSTM單元為擁有三個門結構的特殊網絡,三個門均由Sigmoid函數控制,可有選擇性的控制信息流的傳遞,三個門分別為輸入門、遺忘門及輸出門。
9.根據權利要求1所述的面向網絡直播場景的用戶言論語義分析方法,其特征在于:所述不良信息包括低俗信息、色情信息及暴力信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811523923.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:確定故障類型的方法、裝置、設備和介質
- 下一篇:一種漢語冗余義項自動消除系統





