[發(fā)明專(zhuān)利]一種英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢(shì)的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201410243738.0 | 申請(qǐng)日: | 2014-06-04 |
| 公開(kāi)(公告)號(hào): | CN103984771B | 公開(kāi)(公告)日: | 2017-02-15 |
| 發(fā)明(設(shè)計(jì))人: | 李晨亮;孫愛(ài)欣 | 申請(qǐng)(專(zhuān)利權(quán))人: | 武漢大學(xué) |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙)42222 | 代理人: | 張火春 |
| 地址: | 430072 湖*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 英文 微博中 地理 興趣 抽取 感知 時(shí)間 趨勢(shì) 方法 | ||
1.一種英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢(shì)的方法,其特征在于,包括以下步驟:
步驟1:針對(duì)給定的地理區(qū)域,利用英文社交網(wǎng)絡(luò),構(gòu)建該地理區(qū)域的地理興趣點(diǎn)知識(shí)庫(kù),使其每一個(gè)知識(shí)庫(kù)中的詞條都可以對(duì)應(yīng)于至少一個(gè)該地理區(qū)域的地理興趣點(diǎn);
步驟2:根據(jù)步驟1構(gòu)建的地理興趣點(diǎn)知識(shí)庫(kù),對(duì)來(lái)自該給定的地理區(qū)域的英文微博進(jìn)行掃描匹配,獲取所有包含有地理興趣點(diǎn)知識(shí)庫(kù)中的地理興趣點(diǎn)表述的微博,這些匹配到的地理興趣點(diǎn)表述成為候選地理興趣點(diǎn),從這些微博中隨機(jī)采樣一定數(shù)量的微博,對(duì)采樣微博中各個(gè)候選地理興趣點(diǎn)進(jìn)行人工消歧義標(biāo)注,然后對(duì)其中真實(shí)的地理興趣點(diǎn)人工進(jìn)行時(shí)間趨勢(shì)標(biāo)記,最后生成訓(xùn)練集合;
步驟3:根據(jù)步驟2生成的訓(xùn)練集合,對(duì)集合中的每條英文微博進(jìn)行特征提取,基于訓(xùn)練集合,依據(jù)提取詞匯特征、語(yǔ)法特征和BILOU模式標(biāo)記特征,運(yùn)用條件隨機(jī)場(chǎng)模型,訓(xùn)練出英文微博的時(shí)間趨勢(shì)地理興趣點(diǎn)標(biāo)記器;
步驟4:當(dāng)對(duì)來(lái)自該給定的地理區(qū)域的新的英文微博要進(jìn)行處理時(shí),利用步驟3所述的方法對(duì)新的英文微博進(jìn)行特征提取,然后運(yùn)用步驟3生成的時(shí)間趨勢(shì)地理興趣點(diǎn)標(biāo)記器來(lái)進(jìn)行地理興趣點(diǎn)的確定和感知其時(shí)間趨勢(shì)。
2.根據(jù)權(quán)利要求1所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢(shì)的方法,其特征在于:步驟1中所述的詞條,是一個(gè)單詞或由多個(gè)單詞組成的一個(gè)短語(yǔ)。
3.根據(jù)權(quán)利要求1或2所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢(shì)的方法,其特征在于:步驟1中所述針對(duì)給定的地理區(qū)域,利用英文社交網(wǎng)絡(luò),構(gòu)建該地理區(qū)域的地理興趣點(diǎn)知識(shí)庫(kù);其具體實(shí)現(xiàn)包括以下子步驟:
步驟1.1:根據(jù)英文社交網(wǎng)絡(luò)提供的API服務(wù)或者網(wǎng)頁(yè)爬蟲(chóng)抓取用戶位置簽到信息,基于用戶的個(gè)人資料收集來(lái)自特定地理區(qū)域的用戶位置簽到記錄,生成關(guān)于特定地理區(qū)域的簽到記錄集合;
步驟1.2:根據(jù)步驟1.1生成的簽到記錄集合,基于正則表達(dá)式,抽取簽到記錄中的地理興趣點(diǎn)名稱(chēng),這些抽取到的地理興趣點(diǎn)名稱(chēng)作為地理興趣點(diǎn)的全稱(chēng)存儲(chǔ)在地理興趣點(diǎn)知識(shí)庫(kù)中;
步驟1.3:根據(jù)步驟1.2抽取到的地理興趣點(diǎn)全稱(chēng),生成地理興趣點(diǎn)部分名稱(chēng),并存儲(chǔ)在地理興趣點(diǎn)知識(shí)庫(kù)中。
4.根據(jù)權(quán)利要求3所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢(shì)的方法,其特征在于:步驟1.3的具體實(shí)現(xiàn)過(guò)程為基于地理興趣點(diǎn)全稱(chēng),提取這個(gè)全稱(chēng)的所有長(zhǎng)度不超過(guò)5個(gè)單詞的子序列,在此過(guò)程中,英文停用詞將作為產(chǎn)生子序列的分隔詞,并且不會(huì)出現(xiàn)在子序列中,這些子序列將作為其地理興趣點(diǎn)的部分名稱(chēng)存儲(chǔ)在地理興趣點(diǎn)知識(shí)庫(kù)中。
5.根據(jù)權(quán)利要求1所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢(shì)的方法,其特征在于:步驟2中所述的對(duì)來(lái)自該給定的地理區(qū)域的英文微博進(jìn)行掃描匹配,在匹配地理興趣點(diǎn)名稱(chēng)的過(guò)程中,優(yōu)先選擇更長(zhǎng)的地理興趣點(diǎn)名稱(chēng)以及位置靠前出現(xiàn)的名稱(chēng)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410243738.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 微博消息的發(fā)布方法、微博終端及微博服務(wù)器端
- 微博排序、搜索、展示方法和系統(tǒng)
- 微博顯示方法和系統(tǒng)
- 一種更新微博用戶庫(kù)的方法及設(shè)備
- 一種根據(jù)微博用戶庫(kù)采集微博內(nèi)容的方法及設(shè)備
- 微博廣告投放方法和裝置
- 一種社交媒體中熱點(diǎn)微博數(shù)據(jù)的自適應(yīng)取樣方法
- 熱點(diǎn)事件檢測(cè)方法和裝置
- 基于微博主題進(jìn)行微博轉(zhuǎn)發(fā)路徑預(yù)測(cè)的方法和系統(tǒng)
- 基于微博主題標(biāo)簽進(jìn)行微博轉(zhuǎn)發(fā)預(yù)測(cè)的方法和系統(tǒng)
- 基于地理信息數(shù)據(jù)的電子地圖及其導(dǎo)航方法
- 一種通過(guò)地圖顯示網(wǎng)頁(yè)中地理信息的方法和裝置
- 地理位置監(jiān)測(cè)方法及地理位置監(jiān)測(cè)設(shè)備
- 一種基于地理信息數(shù)據(jù)的煙田電子地圖及其導(dǎo)航方法
- 邏輯分段數(shù)據(jù)處理系統(tǒng)
- 移動(dòng)設(shè)備的被動(dòng)動(dòng)態(tài)地理圍欄
- 一種數(shù)據(jù)處理方法及裝置
- 地理信息動(dòng)態(tài)預(yù)警布控系統(tǒng)
- 地理邊界確定服務(wù)
- 地理圍欄分級(jí)方法、車(chē)輛調(diào)度方法以及服務(wù)器
- 興趣點(diǎn)系統(tǒng)、興趣點(diǎn)信息系統(tǒng)以及下載多個(gè)興趣點(diǎn)的方法
- 用戶興趣點(diǎn)的確定方法、裝置及終端
- 一種全局興趣探索推薦方法和裝置
- 信息中心聯(lián)網(wǎng)中的跟蹤排隊(duì)延遲和執(zhí)行相關(guān)的擁塞控制的方法、裝置及介質(zhì)
- 興趣點(diǎn)重要度測(cè)量方法和裝置
- 一種導(dǎo)航方法及系統(tǒng)
- 興趣偏好預(yù)測(cè)方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種興趣點(diǎn)的質(zhì)量評(píng)分獲取方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 聚合興趣點(diǎn)的方法、裝置、設(shè)備和介質(zhì)
- 用于優(yōu)化興趣點(diǎn)標(biāo)簽的方法和裝置





