[發明專利]一種社交網絡文本數據的索引方法有效
| 申請號: | 201710281671.3 | 申請日: | 2017-04-18 |
| 公開(公告)號: | CN107153687B | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 趙相國;王國仁;孫永佼;畢鑫;張禎;喻鑫 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06Q50/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 社交 網絡 文本 數據 索引 方法 | ||
1.一種社交網絡文本數據的索引方法,其特征在于,包括以下步驟:
1)、獲取需求用戶的地理位置,根據需求用戶輸入的需求,對社交網絡中的文本數據進行分詞處理,獲取與需求用戶的需求相匹配的關鍵詞組;
2)、根據獲取的關鍵詞組,建立索引樹DLIR-Tree,所述索引樹DLIR-Tree的每個節點包含一系列的社交網絡文本的發送用戶,每個節點的發送用戶都是由該節點的下一層的子樹所包含的發送用戶的集合;
3)、根據需求用戶的需求、地理位置及區域半徑查詢索引樹DLIR-Tree,得到相應的文本數據;
步驟1)具體包括:
1.1、對待處理的文本數據進行分詞停用詞、標點符號、表情處理,得到處理后的文本數據;
1.2、利用正向匹配策略與逆向匹配策略對處理后的文本數據對文本數據分詞,通過相互的信息比對,以及歧義詞語對的互信值比較,以互信值高一組為最終的分詞結果,輸出分詞集合;
所述步驟2)具體包括:
定義DLIR-Tree葉子節點對象l,Λ,ψ,F,其中每個實體對象都包含了地理位置信息l,Λ為存在一個與該地理位置對應的最小邊界矩形MBR屬性,與地理位置相關聯的文本關鍵詞ψ,并且存在集合F代表一組發送用戶,這組發送用戶在該地理位置上簽到過的;
定義DLIR-Tree非葉子節點對象R,Λ,ψ,F,其中,R表示了孩子節點對象的集合,Λ為其孩子節點的地理位置所組成的對應的最小邊界矩形MBR屬性,最小邊界矩形對所要查詢的區域用戶做相應的匹配計算,ψ對應了所有的孩子節點所包含的文本關鍵詞,F為對象中一組在該區域做過簽到行為且發表過文本的發送用戶。
2.根據權利要求1所述的社交網絡文本數據的索引方法,其特征在于,所述步驟3)具體包括:
給定一個查詢需求q、給出一個非葉子節點實體e,以及它的最小邊界矩形e.Λ,用trq(p)表示對象實體p對應的關聯倒排文本與查詢需求q的關鍵詞的相關度,對于任意屬于節點e的對象實體p,均有對于文本簽到位置與需求用戶發起查詢的地理位置之間的社會距離相關性的公式:
在上述公式中,sdq(p)表示對象實體p對于用戶u發起的查詢的社會距離相關性,其中,α∈[0,1),常量1保證了計算的相關性永遠不會等于零;s為區域半徑;uq為發起查詢的用戶,p.F為對象實體p中一組在該區域做過簽到行為且發表過文本的發送用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710281671.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據庫的切換方法、主服務器以及從服務器
- 下一篇:一種型材自動切割裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





