[發(fā)明專利]基于立場檢測的推選預(yù)測分析方法在審
| 申請?zhí)枺?/td> | 202010937515.X | 申請日: | 2020-09-08 |
| 公開(公告)號: | CN113379095A | 公開(公告)日: | 2021-09-10 |
| 發(fā)明(設(shè)計(jì))人: | 李文法;陳瑩瑩;梁煜博 | 申請(專利權(quán))人: | 北京聯(lián)合大學(xué) |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達(dá)知識產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100101 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 立場 檢測 推選 預(yù)測 分析 方法 | ||
基于立場檢測的推選預(yù)測分析方法屬于輿情分析領(lǐng)域,為基于社交媒體的推選預(yù)測提供了研究基礎(chǔ)和方法。其實(shí)施方法包括下述步驟:步驟一,人工標(biāo)注的定義推選相關(guān)關(guān)鍵詞。步驟二,再使用爬蟲技術(shù),爬取訓(xùn)練時間段產(chǎn)生的所有相關(guān)文本。步驟三,之后將這些文本抽樣標(biāo)記,并使用標(biāo)記數(shù)據(jù)完成立場檢測分類器的訓(xùn)練。步驟四,使用爬蟲技術(shù),爬取預(yù)測時間段產(chǎn)生的所有相關(guān)文本。步驟五,再使用通過訓(xùn)練數(shù)據(jù)訓(xùn)練的立場檢測分類器,完成文本的立場檢測。步驟六,統(tǒng)計(jì)結(jié)果,得到表達(dá)投票傾向的指標(biāo),從而完成推選預(yù)測。
技術(shù)領(lǐng)域
本發(fā)明公開了一種基于立場檢測的推選預(yù)測分析方法,屬于輿情分析領(lǐng)域。
背景技術(shù)
使用社交媒體數(shù)據(jù)完成對于時事的預(yù)測與分析一直是重要的課題。例如,輿情分析、預(yù)測股市走向等。然而隨著社交媒體的用戶不斷的增加,有更多的用戶使用社交媒體分享與討論他們的投票傾向。同樣,每個候選人也開始利用社交媒體為它們爭取在推選中的支持。因此,我們可以通過社交媒體,挖掘投票人的投票偏好。
立場檢測任務(wù)的目的是通過給定文本,針對特定目標(biāo)主題,分析其中表達(dá)出的情感屬于支持(肯定),不支持(否定)或無立場(中立),其核心是檢測和挖掘意見極性。其相對于情感分析方法挖掘整個文本的情感,側(cè)重于提取文本中作者針對某個主題的立場。
但是,在目前基于社交媒體的推選分析與預(yù)測中,大多使用情感分析來完成文本的傾向性分析,而不是立場檢測。因此,本發(fā)明結(jié)合立場檢測方法,針對某市代表的推選完成推選的預(yù)測,提出了基于立場檢測的推選預(yù)測模型。
發(fā)明內(nèi)容
為了預(yù)測推選結(jié)果,本發(fā)明建立了基于立場檢測的推選分析模型。其中包括定義關(guān)鍵詞、模型訓(xùn)練、立場檢測、推選預(yù)測4個階段。
為了給標(biāo)記數(shù)據(jù)、訓(xùn)練模型等預(yù)留時間,本模型從時間上分為兩段:一段是訓(xùn)練時間段,另一段是預(yù)測時間段。訓(xùn)練時間段規(guī)定了模型的訓(xùn)練階段使用的數(shù)據(jù)產(chǎn)生的時間。預(yù)測時間段規(guī)定了立場檢測與推選預(yù)測階段使用的數(shù)據(jù)產(chǎn)生的時間。
本發(fā)明使用推選開始日前20-30天作為訓(xùn)練時間段,推選開始日前1-20天與前1-30天作為預(yù)測時間段。
本模型首先通過人工標(biāo)注的定義推選相關(guān)關(guān)鍵詞。再使用爬蟲技術(shù),爬取訓(xùn)練時間段產(chǎn)生的所有相關(guān)文本。之后將這些文本抽樣標(biāo)記,并使用標(biāo)記數(shù)據(jù)完成立場檢測分類器的訓(xùn)練。然后,使用爬蟲技術(shù),爬取預(yù)測時間段產(chǎn)生的所有相關(guān)文本。再使用通過訓(xùn)練數(shù)據(jù)訓(xùn)練的立場檢測分類器,完成文本的立場檢測。最后統(tǒng)計(jì)結(jié)果,得到表達(dá)投票傾向的指標(biāo),從而完成推選預(yù)測。
定義關(guān)鍵詞:本階段的目的是設(shè)計(jì)推選相關(guān)的關(guān)鍵詞,從而通過這些詞語在社交媒體平臺搜索相關(guān)的數(shù)據(jù)。關(guān)鍵詞一般為候選人名、候選團(tuán)體等,本發(fā)明使用的關(guān)鍵詞為候選人名。
模型的訓(xùn)練:在定義關(guān)鍵詞后,本階段就會結(jié)合關(guān)鍵詞,通過爬蟲技術(shù)檢索所有在訓(xùn)練時間段內(nèi)的包含檢索詞的所有twitter文本,再使用簡體繁體翻譯工具完成文本的轉(zhuǎn)換。將推文作為立場檢測的文本內(nèi)容,將文本中包含的候選人姓名作為目標(biāo)主題。
不同選區(qū)人口與對于Twitter的使用比例不盡相同,導(dǎo)致涉及到的候選人中,有可能存在部分候選人相關(guān)推文為0或是很少的情況,這導(dǎo)致了后續(xù)的抽樣標(biāo)記過程中,存在數(shù)據(jù)不足的情況。因此,為了讓立場檢測算法可以達(dá)到更好的效果。
之后,抽樣上述數(shù)據(jù)中的2000條,由兩位標(biāo)記者,按照Nlpcc2016年的立場檢測標(biāo)記要求,標(biāo)記文本內(nèi)容對于目標(biāo)主題屬于支持、不支持或無態(tài)度。再將不同標(biāo)簽的數(shù)據(jù)按照相等比例抽取,生成三個標(biāo)簽數(shù)量相等的訓(xùn)練數(shù)據(jù)集。
然后,本發(fā)明搭建了基于雙通道CNN-GRU融合網(wǎng)絡(luò)的微博文本立場檢測模型。然后,對訓(xùn)練數(shù)據(jù)進(jìn)行停用詞的刪除、分詞與詞向量表示,最后用于訓(xùn)練本立場檢測模型,生成立場檢測分類器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京聯(lián)合大學(xué),未經(jīng)北京聯(lián)合大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010937515.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:半導(dǎo)體裝置
- 下一篇:圖像擷取設(shè)備和距離測量裝置
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運(yùn)輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計(jì)算機(jī)輔助管理





