[發(fā)明專利]基于word2vec的輿情傾向性分析方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710259721.8 | 申請(qǐng)日: | 2017-04-19 |
| 公開(公告)號(hào): | CN107239439A | 公開(公告)日: | 2017-10-10 |
| 發(fā)明(設(shè)計(jì))人: | 蔣昌俊;閆春鋼;王鵬偉;何良華;羅裕雋 | 申請(qǐng)(專利權(quán))人: | 同濟(jì)大學(xué) |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27;G06F17/30 |
| 代理公司: | 上海光華專利事務(wù)所31219 | 代理人: | 尹麗云 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 word2vec 輿情 傾向性 分析 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)應(yīng)用領(lǐng)域,尤其涉及一種基于word2vec的輿情傾向性分析方法。
背景技術(shù)
輿情是“輿論情況”的簡稱,是指在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,作為主體的民眾對(duì)作為客體的社會(huì)管理者、企業(yè)、個(gè)人及其他各類組織及其政治、社會(huì)、道德等方面的取向產(chǎn)生和持有的社會(huì)態(tài)度。新聞在傳播的過程中,越來越多的傾向性披露在公眾面前,這些正面積極的或負(fù)面消極的情感傾向潛移默化地影響著人們對(duì)時(shí)事動(dòng)態(tài)的看法,影響了輿論的走勢(shì)。輿情傾向性分析研究正是在這種形勢(shì)下產(chǎn)生的,旨在通過對(duì)新聞文本進(jìn)行分析,挖掘新聞潛在的傾向性,希望有助于公眾了解最新社會(huì)動(dòng)態(tài),獲悉時(shí)事熱點(diǎn)和輿論輿情的最新發(fā)展和走勢(shì);希望有助于監(jiān)管部門及時(shí)發(fā)現(xiàn)社會(huì)問題,構(gòu)建文明和諧的輿論環(huán)境;希望有助于公司、企業(yè)或機(jī)關(guān)事業(yè)單位的決策者正確把握當(dāng)前形勢(shì)并制定相應(yīng)的策略。
目前主流的新聞搜索引擎都只是針對(duì)關(guān)鍵字對(duì)新聞進(jìn)行檢索,想要獲得新聞的文本傾向性只能通過人工方法自行檢索和識(shí)別,但每天互聯(lián)網(wǎng)上更新的新聞數(shù)量十分龐大,通過人工進(jìn)行新聞的傾向性檢索耗費(fèi)大量的人力和物力,而且效率低下。輿情傾向性分析的實(shí)質(zhì)是篇章級(jí)文本傾向性分析,由于新聞報(bào)道的篇幅較長,其中有些句子和對(duì)闡明主題貢獻(xiàn)較大,有些和主題關(guān)系不大,如果直接將整篇文章進(jìn)行傾向性分析可能會(huì)影響算法的判別效果。
目前,使用最廣泛的文檔表示方法都是基于詞袋模型。詞袋模型將文檔看成是詞的集合,在該集合中,每個(gè)詞是相互獨(dú)立的,不考慮詞的順序、語法和語義信息,它將一篇文檔表示成與訓(xùn)練詞匯集合相同維度的向量,向量中對(duì)應(yīng)位置的值表示該文檔中該詞出現(xiàn)的次數(shù)。詞袋模型存在幾個(gè)主要問題:1)樣本空間的維數(shù)過高,增加計(jì)算的復(fù)雜度,易造成“維數(shù)災(zāi)難”現(xiàn)象;2)詞袋模型不考慮詞與詞之間的語義關(guān)系,如“電腦”和“計(jì)算機(jī)”實(shí)際上是同一種東西,但通過詞袋模型比較它們的相似度為0,并且現(xiàn)有技術(shù)中的評(píng)價(jià)對(duì)象的粒度是詞語級(jí)的,無法做到篇章級(jí)的傾向性判斷,因此,亟需一種新的技術(shù)手段,能夠?qū)崿F(xiàn)對(duì)篇章級(jí)的新聞文本的情感傾向性以及情感強(qiáng)度的判別。
發(fā)明內(nèi)容
鑒于以上所述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明提供一種基于word2vec的輿情傾向性分析方法,以解決上述技術(shù)問題,通過以word2vec為基礎(chǔ),抽取新聞文本中的關(guān)鍵句,比較詞匯之間的相似度,并結(jié)合人工制定的語法規(guī)則,首先對(duì)每句關(guān)鍵句的情感傾向性進(jìn)行打分,再通過加權(quán)歸一化方法實(shí)現(xiàn)對(duì)新聞文本的情感傾向性以及情感強(qiáng)度的判別。
本發(fā)明提供的基于word2vec的輿情傾向性分析方法,包括:
詞向量訓(xùn)練階段:采集新聞數(shù)據(jù),通過word2vec深度學(xué)習(xí)模型對(duì)所述新聞數(shù)據(jù)進(jìn)行訓(xùn)練,獲取詞向量訓(xùn)練結(jié)果,所述詞向量訓(xùn)練結(jié)果包括每個(gè)詞語對(duì)應(yīng)的向量表示;
關(guān)鍵句提取階段:對(duì)所述待分析新聞數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理至少包括對(duì)待分析的整篇新聞數(shù)據(jù)進(jìn)行斷句和關(guān)鍵字提取,根據(jù)詞向量訓(xùn)練結(jié)果計(jì)算待分析新聞數(shù)據(jù)中分句和關(guān)鍵詞的匹配程度,獲取與關(guān)鍵字匹配度最高的分句和該篇新聞數(shù)據(jù)的標(biāo)題,并將其作為新聞關(guān)鍵句群;
傾向性判別階段:比較預(yù)處理處理后的新聞關(guān)鍵句群中的詞語和情感詞的相似度,獲取待分析新聞數(shù)據(jù)的情感評(píng)分,通過所述情感評(píng)分對(duì)新聞數(shù)據(jù)進(jìn)行傾向性判別。
進(jìn)一步,通過詞向量的余弦距離對(duì)詞語相似度進(jìn)行度量,所述詞語相似度通過如下公式獲取:
其中,Ai表示向量A的第i個(gè)分量的值,Bi表示向量B的第i個(gè)分量的值,n表示向量長度,θ表示向量A和向量B的夾角。
進(jìn)一步,所述預(yù)處理包括關(guān)鍵詞提取處理、斷句處理以及對(duì)關(guān)鍵句進(jìn)行分詞及去除停用詞處理,通過預(yù)處理獲取每篇新聞數(shù)據(jù)的關(guān)鍵詞、分句和分詞結(jié)果,并將每句分句由一個(gè)詞語序列表示。
進(jìn)一步,所述關(guān)鍵句提取階段具體包括:對(duì)待分析的整篇新聞數(shù)據(jù)進(jìn)行斷句和關(guān)鍵字提取,計(jì)算新聞分句中的每個(gè)詞語的詞語相似度,并獲取其與關(guān)鍵詞的余弦相似度的最大值,將所述最大值作為詞語重要度評(píng)分,通過將分句中的所有詞語的詞語重要度評(píng)分進(jìn)行累加并取平均值作為句子的重要度評(píng)分,提取句子的重要度評(píng)分中最高的句子以及該篇新聞數(shù)據(jù)的標(biāo)題,將其作為新聞關(guān)鍵句群。
進(jìn)一步,根據(jù)語法規(guī)則對(duì)新聞關(guān)鍵句群的情感傾向進(jìn)行加權(quán)處理,獲取新聞關(guān)鍵句群中的關(guān)鍵句的情感值,并根據(jù)關(guān)鍵句權(quán)重和所述情感值獲取待分析新聞全文的情感傾向值,通過所述情感傾向值對(duì)待分析新聞全文的傾向性進(jìn)行判定;所述語法規(guī)則包括否定詞,關(guān)聯(lián)詞、程度副詞以及上下文語義信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟(jì)大學(xué),未經(jīng)同濟(jì)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710259721.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種基于word2vec?LDA模型的文本主題詞提取方法
- 一種基于數(shù)據(jù)特征降維編碼的流媒體內(nèi)容分發(fā)方法
- 一種基于用戶行為序列的個(gè)性化推薦系統(tǒng)召回方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)
- 一種基于用戶行為序列和數(shù)據(jù)融合的推薦系統(tǒng)召回方法及系統(tǒng)
- 動(dòng)態(tài)調(diào)整Word2Vec模型詞典的方法、裝置、介質(zhì)及電子設(shè)備
- 一種基于Word2Vec模型的WordNet中詞語相似度計(jì)算方法
- 一種基于word2vec技術(shù)的相似度比較方法及裝置
- 一種自動(dòng)發(fā)現(xiàn)音頻關(guān)鍵詞到分類映射關(guān)系的方法
- 一種面向模板基于Word2vec的日志異常檢測(cè)方法及裝置
- 一種word2vec模型訓(xùn)練、數(shù)據(jù)召回方法及裝置
- 一種輿情信息獲取方法及裝置
- 一種輿情歸并方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)
- 企業(yè)輿情監(jiān)測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種輿情數(shù)據(jù)推送方法、裝置、存儲(chǔ)介質(zhì)和終端設(shè)備
- 一種輿情分析方法
- 輿情分析方法、裝置、終端設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 知識(shí)庫構(gòu)建方法及裝置
- 生成輿情專題方法、系統(tǒng)及存儲(chǔ)介質(zhì)
- 基于區(qū)塊鏈、輿情和核心算法的金融風(fēng)控系統(tǒng)
- 網(wǎng)絡(luò)輿情云平臺(tái)用戶單位變更配置的方法及系統(tǒng)
- 一種信息發(fā)放方法和裝置
- 一種面向博客群的主題傾向性處理方法及系統(tǒng)
- 情感傾向性分析方法和裝置
- 一種針對(duì)短文本的傾向性分析的系統(tǒng)與方法
- 情感傾向性分析的方法及裝置
- 一種基于概率神經(jīng)網(wǎng)絡(luò)的駕駛傾向性辨識(shí)方法
- 一種考慮悲傷情緒的駕駛傾向性動(dòng)態(tài)轉(zhuǎn)移概率計(jì)算方法
- 巖爆傾向性等級(jí)的判別方法、裝置及電子設(shè)備
- 用戶傾向性識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于高德導(dǎo)航數(shù)據(jù)的駕駛傾向性辨識(shí)方法和系統(tǒng)





