[發明專利]一種屬性搜索方法無效
| 申請號: | 201110433468.6 | 申請日: | 2011-12-22 |
| 公開(公告)號: | CN102411630A | 公開(公告)日: | 2012-04-11 |
| 發明(設計)人: | 湯鯤;史波良;宋波 | 申請(專利權)人: | 南京烽火星空通信發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210019 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 屬性 搜索 方法 | ||
技術領域
本專利申請公開一種信息技術領域的信息檢索技術,特別是對檢索目標的相關屬性進行檢索的方法。
背景技術
商業化的搜索引擎能夠對很多文字信息進行檢索,但是限于對自然語言理解過程的處理能力,目前的商業化搜索引擎都只是停留在文字符號層面,即使是有一些經過語義處理的檢索過程,都只是進行簡單的語義轉化后的關聯搜索。比如你想搜索去年6月份上映的電影,輸入的關鍵詞不一定能夠被搜索引擎識別和重構為其搜索語義的場景,時間不是被翻譯為2010年6月1日到6月30日,而是翻譯為幾個符號后,再進行相關的檢索和歸并。而如果你想檢索某個論壇板塊的很活躍的用戶,可能出來的并不是你想要的東西。
假設你在檢索你的本地郵件或者WEB郵件,你想在你眾多的郵件里面找到一個附件大于1M的郵件,或者附件中含有某種類型的文件,或者檢索附件數量大于某一個數字的郵件,或者其他可以用檢索目標的屬性來描述的東西,比如發給某個目標客戶的郵件,出現在“密送”或者“抄送”里的某個客戶等等,這些屬性帶有某種使用者的行為特征,而你作為使用者對這些行為特征可能比關鍵詞特征更熟悉或更容易記住。而常規的商業化搜索引擎提供的檢索能力都不足以描述這些行為,只支持字符匹配而不是語義匹配。比如你在在檢索你的聊天信息的時候,可能會搜索聊天信息里面的時間段,沒有搜索引擎的話你只能手動上下翻頁,但是搜索引擎如果沒有對聊天內容清單里面的各種時間信息進行特別處理的話,也無法檢索昨天早上的聊天內容之類的模糊檢索。
因此能夠支持待檢索目標的相關屬性檢索,能夠解決一部分語義檢索的問題,還能夠解決一部分行為檢索的問題。
一般的商業化搜索引擎會對收集到的數據進行解析、過濾、凈文本信息提取等預處理,再對凈文本建立索引以供檢索。凈文本和索引都會保存在本地或者分布式的系統上,當用戶進行關鍵詞檢索的時候,搜索引擎會在索引中對關鍵詞進行檢索,返回含有該檢索操作中關鍵詞的凈文本內容及相關的URI。
發明內容
本專利申請中的搜索引擎在進行預處理的時候,會對收集到的數據的相關屬性進行詳細的提取,比如該數據的出現時間、有關聯的各種對象等屬性信息。對于論壇的帖子,會對帖子正文內容和標題進行提取外,還會對帖子的出現時間、瀏覽量、跟帖數、活躍用戶等進行提?。粚τ谛侣?、博客、微博、視頻等也做類似的處理,視頻雖然不能對視頻內容作檢索,但是可以預處理視頻的標題和評論等內容;在處理郵件的時候,對郵件的發信時間、收信時間、發件人、抄送人、密送人、收件人、附件的數量、附件的文件名/大小、屬于垃圾郵件、偽造郵件等信息進行提取;對聊天的各個帳號、內容/出現時間、群的名稱等進行提取,等等。凡是可以用來進行屬性檢索和行為特征描述的各種屬性信息都將其提取出來。然后提取凈文本。
在完成預處理后,按照正常建立索引的過程對凈文本進行處理。然后將凈文本附加前面提取的各種屬性,以特殊的詞匯分隔以便于凈文本與屬性的分離;然后再按照常規凈文本的保存方法保存到本地或者分布式系統里,索引則按照常規索引的保存方法保持到本地或者分布式系統里。
在用戶進行關鍵詞檢索的時候,設置了屬性檢索條件以后,搜索引擎會對索引中的關鍵詞進行檢索,在返回含有該檢索操作中關鍵詞的凈文本內容及相關的URI前,先對凈文本后面依附的屬性進行加載和判斷,符合全部屬性檢索條件的再返回其凈文本內容和URI,實現屬性檢索和行為檢索的目標。
或者簡要地說,通過對待檢索的目標進行充分的屬性提取后,將其與待檢索目標的凈文本混合,存放在系統的存儲中。在檢索關鍵詞并命中凈文本+屬性以后,對命中的凈文本的屬性進行加載和判斷,只返回滿足所有屬性檢索條件的凈文本的URI及包含關鍵詞位置信息的凈文本。
對檢索結果如返回的URI和文本信息等的改變均不構成對本申請中方案的核心內容的實質性改變。對屬性內容、提取方法或者屬性條件判斷方法的改變均不構成對本申請中方案的核心內容的實質性改變。對凈文本、屬性、索引文件的存放方法/加載方法,以及凈文本與屬性的混合、分離、屬性加載等方法的改變均不構成對本申請中方案的核心內容的實質性改變。對凈文本與屬性進行分開存放、同步加載的方法,其本質上還是與本方法的上作原理一致,還導致了兩次IO,性能可能會下降,不構成對本申請中方案的核心內容的實質性改變。
附圖說明
附圖1為建立索引和檢索過程示意圖。
具體實施方式
如圖1所示,本申請的屬性檢索過程如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京烽火星空通信發展有限公司,未經南京烽火星空通信發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110433468.6/2.html,轉載請聲明來源鉆瓜專利網。





