[發(fā)明專利]一種基于多種自然語言處理技術(shù)的無人駕駛新聞分析方法在審
| 申請?zhí)枺?/td> | 202211389089.6 | 申請日: | 2022-11-08 |
| 公開(公告)號: | CN115617970A | 公開(公告)日: | 2023-01-17 |
| 發(fā)明(設(shè)計)人: | 白羽;黃啟迪 | 申請(專利權(quán))人: | 合肥工業(yè)大學(xué) |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F16/951;G06F16/9535;G06F40/30;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 合肥中谷知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 34146 | 代理人: | 袁錦波 |
| 地址: | 230000 *** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多種 自然語言 處理 技術(shù) 無人駕駛 新聞 分析 方法 | ||
1.一種基于多種自然語言處理技術(shù)的無人駕駛新聞分析方法,其特征在于,包括以下步驟:
S1:采集與無人駕駛相關(guān)的新聞文檔數(shù)據(jù);
S2:對所述新聞文檔數(shù)據(jù)進(jìn)行預(yù)處理,得到處理后新聞文檔數(shù)據(jù);
S3:構(gòu)建主題提取模型,通過所述主題提取模型對所述處理后新聞文檔數(shù)據(jù)進(jìn)行主題提取和困惑度值計算,得到多個新聞主題數(shù)據(jù)和困惑度值,基于所述困惑度值大小選擇出最優(yōu)的若干個新聞主題數(shù)據(jù);
S4:構(gòu)建情緒值計算模型,將所述新聞文檔數(shù)據(jù)輸入所述情緒值計算模型中進(jìn)行訓(xùn)練,得到訓(xùn)練后情緒值計算模型;
S5:將所述處理后新聞文檔數(shù)據(jù)輸入所述訓(xùn)練后情緒值計算模型,得到每條所述處理后新聞文檔數(shù)據(jù)的情緒值;
S6:基于最優(yōu)的若干個新聞主題數(shù)據(jù)和每條所述處理后新聞文檔數(shù)據(jù)的情緒值制作出每個不同的所述新聞主題數(shù)據(jù)下情緒值的視覺圖表,實現(xiàn)了新聞分析的目的。
2.根據(jù)權(quán)利要求1所述的一種基于多種自然語言處理技術(shù)的無人駕駛新聞分析方法,其特征在于:所述步驟S1中采集與無人駕駛相關(guān)的新聞文檔數(shù)據(jù)的具體內(nèi)容如下:通過網(wǎng)絡(luò)爬蟲技術(shù),從互聯(lián)網(wǎng)中爬取含有與無人駕駛相關(guān)的關(guān)鍵詞的新聞文檔數(shù)據(jù),所述關(guān)鍵詞包括無人駕駛、自動駕駛和智能駕駛。
3.根據(jù)權(quán)利要求1所述的一種基于多種自然語言處理技術(shù)的無人駕駛新聞分析方法,其特征在于:所述步驟S2中對所述新聞文檔數(shù)據(jù)進(jìn)行預(yù)處理,得到處理后新聞文檔數(shù)據(jù),具體內(nèi)容如下:對所述新聞文檔數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,包括去除重復(fù)、無關(guān)的新聞文檔數(shù)據(jù)并對其中進(jìn)行停用詞去除和分詞處理。
4.根據(jù)權(quán)利要求1所述的一種基于多種自然語言處理技術(shù)的無人駕駛新聞分析方法,其特征在于:所述步驟S3中構(gòu)建主題提取模型,通過所述主題提取模型對所述處理后新聞文檔數(shù)據(jù)進(jìn)行主題提取和困惑度值計算,得到多個新聞主題數(shù)據(jù)和困惑度值,基于所述困惑度值選擇出最優(yōu)的若干個新聞主題數(shù)據(jù),具體內(nèi)容如下:
所述主題提取模型采用LDA模型,采用LDA模型對所述處理后新聞文檔數(shù)據(jù)進(jìn)行主題提取和困惑度值計算,得到多個新聞主題數(shù)據(jù)和困惑度值,通過調(diào)整所述新聞主題數(shù)據(jù)的數(shù)目、alpha值和beta值,得到新聞主題數(shù)據(jù)和困惑度值的對應(yīng)關(guān)系,選擇出當(dāng)困惑度最低時的最優(yōu)的若干個新聞主題數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的一種基于多種自然語言處理技術(shù)的無人駕駛新聞分析方法,其特征在于:所述步驟S4中構(gòu)建情緒值計算模型,將所述新聞文檔數(shù)據(jù)輸入所述情緒值計算模型中進(jìn)行訓(xùn)練,得到訓(xùn)練后情緒值計算模型,具體包括以下步驟:
S401:使用中文分詞工具jieba將所述新聞文檔數(shù)據(jù)中的句子切分為術(shù)語;
S402:采用Word2Vec模型提取所述術(shù)語的特征向量;
S403:將所述特征向量按照9:1的比例隨機(jī)劃分訓(xùn)練集、測試集,對所述訓(xùn)練集進(jìn)行手工標(biāo)注為預(yù)先標(biāo)注的數(shù)據(jù)集,所述預(yù)先標(biāo)注的數(shù)據(jù)集分為消極態(tài)度數(shù)據(jù)集和積極態(tài)度數(shù)據(jù)集;
S404:將所述訓(xùn)練集輸入LSTM模型進(jìn)行訓(xùn)練,再將所述測試集輸入LSTM模型進(jìn)行測試,直至所述LSTM模型的準(zhǔn)確率達(dá)到預(yù)設(shè)值,得到訓(xùn)練后情緒值計算模型。
6.根據(jù)權(quán)利要求1所述的一種基于多種自然語言處理技術(shù)的無人駕駛新聞分析方法,其特征在于:所述步驟S5中將所述處理后新聞文檔數(shù)據(jù)輸入所述訓(xùn)練后情緒值計算模型,得到每條所述處理后新聞文檔數(shù)據(jù)的情緒值,具體內(nèi)容如下:使用所述訓(xùn)練后情緒值計算模型對所述處理后新聞文檔數(shù)據(jù)進(jìn)行檢索,獲得每條所述處理后新聞文檔數(shù)據(jù)對應(yīng)的情緒值,公式如下:
其中,Sentit表示t天的情緒值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥工業(yè)大學(xué),未經(jīng)合肥工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211389089.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





