[發(fā)明專利]基于語義特性提取位置指示詞的位置推斷方法有效
| 申請?zhí)枺?/td> | 201910088827.5 | 申請日: | 2019-01-29 |
| 公開(公告)號: | CN109918579B | 公開(公告)日: | 2021-07-09 |
| 發(fā)明(設(shè)計)人: | 劉粉林;田合嬋;喬亞瓊;朱瑪;羅向陽 | 申請(專利權(quán))人: | 中國人民解放軍戰(zhàn)略支援部隊信息工程大學(xué) |
| 主分類號: | G06F16/9537 | 分類號: | G06F16/9537;G06F16/9536;G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 鄭州聯(lián)科專利事務(wù)所(普通合伙) 41104 | 代理人: | 劉建芳 |
| 地址: | 450001 河*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 語義 特性 提取 位置 指示 推斷 方法 | ||
本發(fā)明公開了一種基于多重干擾詞過濾的位置推斷方法,包括如下步驟數(shù)據(jù)預(yù)處理、詞語篩選、位置指示詞提取、分類器訓(xùn)練和最后的用戶位置推斷。本發(fā)明首先對文本數(shù)據(jù)進行預(yù)處理,得到詞語集;其次,根據(jù)信息增益率對詞語進行初篩;然后,利用word2vec構(gòu)建詞向量,通過聚類將語義相似的詞語聚到一起,并利用序列后向的包裹式特征選擇方式從聚類形成的簇中提取位置指示詞;接著,利用位置指示詞訓(xùn)練樸素貝葉斯分類器;最后,利用訓(xùn)練好的分類器進行用戶位置推斷。本發(fā)明充分利用word2vec來表述詞語的語義特性,可有效提升位置指示詞提取的準確性,從而提升位置推斷的準確性。
技術(shù)領(lǐng)域
本發(fā)明涉及位置推斷技術(shù)領(lǐng)域,尤其涉及基于語義特性提取指示位置詞的位置推斷方法。
背景技術(shù)
目前,近年來,以Twitter、Facebook和新浪微博等為代表的國內(nèi)外社交媒體,發(fā)展十分迅猛,為用戶提供了如發(fā)布動態(tài)、位置簽到、評論互動等服務(wù),給人們的生活帶來了極大的便利。這些服務(wù)形成的數(shù)據(jù)具有極高的使用價值,其中蘊含的位置信息可以將虛擬用戶與現(xiàn)實世界關(guān)聯(lián)起來,應(yīng)用于監(jiān)測居民的健康狀況、推薦周邊活動、識別緊急狀況發(fā)生地、檢測地區(qū)性社團、預(yù)測各地區(qū)的選舉結(jié)果等方面。然而,由于社交媒體對用戶發(fā)布的位置數(shù)據(jù)沒有嚴格的要求,用戶可能不提供位置或提供錯誤的位置。相關(guān)文獻的統(tǒng)計結(jié)果表明,美國的Twitter數(shù)據(jù)集中只有21%的用戶在注冊資料中提供了位置,而且這些位置也不完全準確。此外,社交媒體用戶發(fā)布的文本中帶有位置簽到標簽的數(shù)據(jù)也十分稀疏,Ryoo等人觀察到其數(shù)據(jù)集中只有大約0.4%的推文帶有位置簽到標簽,類似的觀察結(jié)果也出現(xiàn)在文中。然而,用戶位置可以通過文本中出現(xiàn)的某些詞語,如方言、當?shù)亟ㄖ⑻厣〕悦⒊鞘忻冗M行推斷。除了文本,其他類型的社交媒體數(shù)據(jù),如關(guān)注/粉絲、教育信息、職業(yè)信息等也可以推斷用戶位置。如何利用社交媒體數(shù)據(jù)推斷用戶位置是一個非常值得研究的問題,也具有重要的理論和現(xiàn)實意義。
目前,社交媒體用戶位置推斷的粒度一般在城市級,有時在州級或國家級。社交媒體用戶位置推斷的方法主要有基于朋友關(guān)系的位置推斷、基于用戶文本的位置推斷和基于多種社交媒體數(shù)據(jù)融合的位置推斷等。文假設(shè)互相關(guān)注的用戶之間是真實位置鄰近的朋友關(guān)系,基于用戶的關(guān)注/粉絲數(shù)據(jù)推斷用戶位置。然而,這種假設(shè)與事實不完全符合。Kong等人發(fā)現(xiàn),兩個互相關(guān)注的用戶如果有一半以上的共同朋友,則距離鄰近的概率為83%;如果僅有10%的共同朋友,距離鄰近的概率則下降到2.4%。與Kong等人的結(jié)論相似,研究表明相互關(guān)注的用戶之間的真實位置不一定鄰近。大多數(shù)基于朋友關(guān)系推斷用戶位置的方法都依賴于用戶的全部關(guān)注/粉絲數(shù)據(jù)的獲取。然而,隨著隱私保護力度的加強,已經(jīng)無法獲取用戶的全部關(guān)注/粉絲數(shù)據(jù),現(xiàn)有的基于朋友關(guān)系推斷用戶位置的方法受到極大的限制。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍戰(zhàn)略支援部隊信息工程大學(xué),未經(jīng)中國人民解放軍戰(zhàn)略支援部隊信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910088827.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





