[發明專利]一種基于詞向量和Bert的群體內隱立場分析方法有效
| 申請號: | 202011451101.2 | 申請日: | 2020-12-09 |
| 公開(公告)號: | CN112836486B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 韓旭;王博;蔣沁學;陳根華;黃博帆 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/284;G06F40/30;G06F40/126;G06F16/35 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉子文 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 向量 bert 群體 立場 分析 方法 | ||
本發明公開一種基于詞向量和Bert的群體內隱立場分析方法,通過文本語料庫訓練Bert模型,結合句向量進行群體內隱立場分析;包括數據解析模塊、模型訓練模塊以及內隱立場分析模塊;數據解析模塊用于解析提取社會群體中用戶發表的言論數據,根據內隱聯想測試中提到的目標詞和屬性詞對用戶的言論分類;對其中抽取的正文文本進行分句得到言論集合A,再提取到既包含目標詞又包含屬性詞的句子集合B,和不包含目標詞和屬性詞的集合C;模型訓練模塊用于構建學習社會群體語言大數據文本偏見的模型;內隱立場分析模塊根據句子的嵌入向量之間的距離遠近來測量對應目標詞和屬性詞之間的關系大小,從而量化社會群體用戶的內隱立場態度。
技術領域
本發明屬于社會計算和社會心理學中的群體語言數據分析領域,涉及群體內隱立場態度 分析方法,特別是涉及一種基于詞向量和Bert的群體內隱立場分析方法。
背景技術
在社會媒體語言大數據(如微博,Twitter,新聞,維基百科等)中用戶所發表的言論可 以潛在的反映其對事物或態度的態度。態度立場是個體或群體對概念或對象的傾向性觀點。 目前,關于個體或群體的態度立場的研究主要集中在社會心理學領域。態度立場分為外顯態 度和內顯態度兩部分,外顯態度是有意識的,可控的,易于報告的態度,內顯態度是不可控 的,無法有意識獲取的態度[1]。同時,借助自然語言處理技術,語言也已經被用于挖掘態度 立場[2-4],通過分析個體或群體話語的情感和語義,可以挖掘個體或群體對某些事件,對象, 人物或概念的態度[5]。
在心理學研究中,內隱聯想測驗需要被試人員主動配合進行實驗[7],并且僅能小規模的 群體進行測量。盡管人工只能在學習文本表示方面已經有了一些突破進展,但是對于那些言 不由衷的外顯表達的句子,人類讀者在沒有豐富背景的情況下,很難判斷其真誠性。而學習 了偏見的AI模型卻能夠一定程度上做到這一點。
內隱態度是個體內心以無意識的方式影響個體行為的內心態度。內隱聯想測驗[9]是在心 理學上測量內隱態度的主要測量方法之一,其被設計為以產生大的效應大小的方式來可靠地 評估個體態度差異[10]。Greenwald和Banaji斷言隱式和顯式記憶能夠適用于對個體或群體社 會態度的研究[11]。內隱聯想測驗是Greenwald等在1998年提出的一種利用測量概念詞匯與 屬性詞匯之間的關聯性來實現對被試的內隱態度進行測量的方法。如果意識無法獲得的記憶 可以影響個體的行動,那么這種關聯也能夠影響個體的態度和行為。利用個體的概念關聯差 異,有助于心理學研究人員理解由于缺乏意識和社會期望偏差而無法通過自我報告評估方式 來衡量的態度[12]。
目前,基于文本語言的態度分析[13-19]的態度測量主要依賴于文本中態度的顯式表達, 并未針對內隱態度進行深入研究。其中,文本情感分析方法是測量態度的主要方法。情感分 析是指使用自然語言處理、文本分析、計算語言學來識別、提取、量化和研究情感狀態和主 觀信息[6],其旨在確定作者對某個主題的態度,或者對文檔,對象或事件的態度極性。通過 情感分析可以了解在線發言評論中表達的一般或基于方面(Aspect-based)的態度[20],這里 的態度可以是情感狀態。通常情感分析會將文本中的觀點分類為“積極”,“中立”和“消極”等 類別[21]。一般來說,基于情感分析研究的態度通常包括對象,屬性,態度極性,態度持有 人等幾個關鍵因素。同時,一些自然語言處理中資源和技術也被應用于態度測量,如外部詞 典[18]和句法分析[19]等。
在2017年,Caliskan等人提出了詞嵌入關聯測試[22]來測量態度,通過將內隱聯想測驗 中的關聯強度與單詞之間的語義距離聯系起來進而理解態度立場。詞嵌入(wordembedding) 是一種依賴于語料庫中單詞上下文的詞的語義表示方法。在詞嵌入中,在向量空間中更靠近 的單詞應該在語義上更接近。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011451101.2/2.html,轉載請聲明來源鉆瓜專利網。





