[發(fā)明專利]面向網(wǎng)絡(luò)直播場景的用戶言論語義分析方法在審
| 申請?zhí)枺?/td> | 201811523923.X | 申請日: | 2018-12-13 |
| 公開(公告)號: | CN109657241A | 公開(公告)日: | 2019-04-19 |
| 發(fā)明(設(shè)計)人: | 張暉;李吉媛 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇科專利代理有限責(zé)任公司 32102 | 代理人: | 姚姣陽 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)絡(luò)直播 語義分析 預(yù)處理 用戶輸入內(nèi)容 場景 分類器模型 用戶輸入?yún)^(qū) 不良信息 分詞處理 禁止發(fā)送 模型判斷 人工成本 實時獲取 提醒用戶 向量表示 詞向量 詞序列 實時性 無人工 自動地 構(gòu)建 語料 發(fā)送 監(jiān)督 直播 節(jié)約 源頭 保證 | ||
本發(fā)明揭示了一種面向網(wǎng)絡(luò)直播場景的用戶言論語義分析方法,包括如下步驟:S1、實時獲取網(wǎng)絡(luò)直播平臺直播間內(nèi)用戶輸入?yún)^(qū)的內(nèi)容,并進(jìn)行預(yù)處理;S2、將預(yù)處理過的內(nèi)容進(jìn)行分詞處理,保持詞序列順序不變;S3、根據(jù)語料詞典得到每個詞的詞向量,進(jìn)而得到用戶輸入內(nèi)容的向量表示;S4、構(gòu)建并訓(xùn)練LSTM型雙向RNN語義分析分類器模型;S5、依據(jù)S4中建立的模型判斷用戶輸入內(nèi)容是否包含不良信息,若不包含則正常發(fā)送,否則提醒用戶并禁止發(fā)送。本發(fā)明可以在無人工參與的情況下自動地完成對用戶言論的語義分析、從源頭上對網(wǎng)絡(luò)直播平臺內(nèi)的用戶言論進(jìn)行監(jiān)督,不僅能夠保證監(jiān)督的實時性和有效性,而且也節(jié)約了人工成本。
技術(shù)領(lǐng)域
本發(fā)明涉及一種針對用戶言論的語義分析方法,具體而言,涉及一種面向網(wǎng)絡(luò)直播場景的用戶言論語義分析方法,屬于深度學(xué)習(xí)及文本內(nèi)容技術(shù)領(lǐng)域。
背景技術(shù)
近年來,網(wǎng)絡(luò)直播行業(yè)發(fā)展極為迅速,各種直播平臺層出不窮,觀看直播的用戶準(zhǔn)入門檻低,其用戶群體整體呈現(xiàn)低齡化態(tài)勢。而網(wǎng)絡(luò)直播平臺的一個顯著特點就是用戶可以在評論區(qū)隨意的發(fā)表自己的言論,同時這些言論會以彈幕的形式顯示在直播間,使身處同一個直播間的所有用戶(包括主播)都能看到。
但在實際的平臺運營過程中,人們發(fā)現(xiàn),總會出現(xiàn)有一些個人素質(zhì)不高的用戶,為了追求低級趣味,在彈幕上出口成臟,發(fā)表不雅、不健康的言論。由于彈幕的即時性和瞬時性特點,言論一出即成為既定事實,相關(guān)的管制措施往往起不到任何實質(zhì)性的作用;同時由于彈幕的隱秘性,有些低俗彈幕不能被及時地發(fā)現(xiàn)并處理,這對青少年、對社會都造成了極大的危害。
目前,網(wǎng)絡(luò)直播平臺對于用戶言論的監(jiān)督大多還停留在對彈幕字詞的簡單屏蔽上,并未沒有真正實現(xiàn)語義分析,監(jiān)督效果不甚理想。由于彈幕具有多變化、多元化、碎片化等特性,使得一些不包含常見敏感詞匯但是具有低俗趣味意義的言論得不到有效的處理;其次,彈幕一出直播間內(nèi)所有人都能看到,對其進(jìn)行簡單屏蔽并不能從源頭上解決問題,從而不能保證監(jiān)督的實時性。
綜上所述,如何在現(xiàn)有技術(shù)的基礎(chǔ)上提出一種針對用戶言論的語義分析方法,實現(xiàn)對網(wǎng)絡(luò)直播平臺內(nèi)用戶言論的有效監(jiān)督,也就成為了本領(lǐng)域內(nèi)技術(shù)人員亟待解決的問題。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)存在上述缺陷,本發(fā)明的目的是提出一種面向網(wǎng)絡(luò)直播場景的用戶言論語義分析方法,包括如下步驟:
S1、實時獲取網(wǎng)絡(luò)直播平臺直播間內(nèi)用戶輸入?yún)^(qū)的內(nèi)容,并進(jìn)行預(yù)處理;
S2、將預(yù)處理過的內(nèi)容進(jìn)行分詞處理,保持詞序列順序不變;
S3、根據(jù)語料詞典得到每個詞的詞向量,進(jìn)而得到用戶輸入內(nèi)容的向量表示;
S4、構(gòu)建并訓(xùn)練LSTM型雙向RNN語義分析分類器模型;
S5、依據(jù)S4中建立的模型判斷用戶輸入內(nèi)容是否包含不良信息,若不包含則正常發(fā)送,否則提醒用戶并禁止發(fā)送。
優(yōu)選地,S1中所述預(yù)處理具體包括:去除與文字內(nèi)容無關(guān)的多余信息,所述多余信息包括表情圖片、表情符號、數(shù)字符號以及拼音符號。
優(yōu)選地,S3中所述根據(jù)語料詞典得到每個詞的詞向量具體包括:將每個詞表示成一個獨熱向量,向量的維度為語料詞典的長度;所述語料詞典由網(wǎng)絡(luò)直播平臺上的語料形成,所述語料詞典中的字詞不重復(fù)。
優(yōu)選地,S4具體包括如下步驟:
S41、收集網(wǎng)絡(luò)直播平臺上各種類型直播中的用戶輸入內(nèi)容,并逐條進(jìn)行標(biāo)記,將包含不良信息的內(nèi)容標(biāo)記為0,否則標(biāo)記為1;
S42、將收集的用戶輸入內(nèi)容進(jìn)行預(yù)處理,劃分訓(xùn)練集和測試集,構(gòu)建語料詞典;
S43、根據(jù)語料詞典把用戶輸入文本內(nèi)容用詞向量的形式表示出來,按照詞序列順序?qū)⒃~向量進(jìn)行連接;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811523923.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 為基于P2P網(wǎng)絡(luò)的直播節(jié)目添加實時字幕和手語服務(wù)的方法及系統(tǒng)
- 一種展示網(wǎng)絡(luò)直播間的方法和裝置
- 網(wǎng)絡(luò)直播方法、裝置及系統(tǒng)
- 網(wǎng)絡(luò)直播方法、裝置、服務(wù)器及下線控制設(shè)備
- 一種網(wǎng)絡(luò)直播系統(tǒng)及其直播方法
- 一種直播方法及裝置
- 根據(jù)用戶的硬件環(huán)境自動推薦網(wǎng)絡(luò)直播參數(shù)的方法和系統(tǒng)
- 一種基于Flash播放器消除直播延遲的方法
- 網(wǎng)絡(luò)直播的管理方法、裝置及存儲介質(zhì)
- 一種主播信息的展示方法、裝置、服務(wù)器和存儲介質(zhì)
- 電鍍預(yù)處理溶液和電鍍預(yù)處理方法
- 鐵水預(yù)處理方法及其預(yù)處理裝置
- 預(yù)處理裝置及其預(yù)處理方法
- 預(yù)處理組件、使用該預(yù)處理組件進(jìn)行試樣的預(yù)處理的預(yù)處理裝置及包括該預(yù)處理裝置的分析系統(tǒng)
- 待測樣品預(yù)處理裝置、預(yù)處理筒及預(yù)處理方法
- 醋酸纖維卷曲預(yù)處理裝置、預(yù)處理液及預(yù)處理方法
- 預(yù)處理裝置
- 預(yù)處理濾芯
- 甘薯儲藏預(yù)處理設(shè)備及預(yù)處理方法
- 水樣預(yù)處理裝置、水樣預(yù)處理系統(tǒng)及水樣預(yù)處理方法





