[發明專利]根據文件內容確定特征詞并用于檢索的方法有效
| 申請號: | 201010001183.0 | 申請日: | 2010-01-15 |
| 公開(公告)號: | CN101763424A | 公開(公告)日: | 2010-06-30 |
| 發明(設計)人: | 劉二中 | 申請(專利權)人: | 劉二中 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100089 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 根據 文件 內容 確定 特征 用于 檢索 方法 | ||
技術領域
本技術屬于計算機檢索技術或搜索引擎技術。
背景技術
多年來,計算機數據庫檢索技術有了極大發展,特別是網絡技術的進展, 使得人們可以共享的數據庫的規模達到了天文數字。這也給人們查找所需信息帶 來了很大困難。
以查詢詞搜索為核心的搜索引擎技術為用戶帶來了便利。該系統可以通過 客戶機上的交互界面以及通訊網絡得到查詢者的關鍵詞查詢請求,在文本索引 庫或文本庫中進行查詢,并進行關鍵詞請求與文本的相關性分析,得到相關結 果并排序,再經由通訊網絡或線路提供到交互界面。這種搜索系統使用起來十 分便利迅速,但返還結果包含的索引總數仍然十分龐大,難于逐一查閱。
第6,285,999號美國專利提出了基于網頁超級鏈接結構,能將潛在的對查 詢者最有價值的查詢結果盡量排在前面以方便查詢(佩奇鏈接)的技術,超過 了其他排序技術,獲得空前成功。然而,該技術以及其他各種排序技術,僅僅 是在統計學意義上提高了關鍵詞搜索的效率,并不能保證每個人希望的查詢結 果都能排在龐大索引表的前面。我們在讀到期望的信息之前,卻無奈地讀到種 種主要內容一再重復的無關信息。
為了解決該問題,人們還求助于垂直分類技術和以該技術為基礎的目錄檢 索系統。為了給海量信息分類或確定特征,出現了各種計算機文本分類方法。然 而,由機器判斷某一網頁或文件屬于哪一條特征或類別是十分困難的,其可靠 性和準確率不高,特別是在多級分類中,錯誤率高得令人無法忍受。因此,計算 機分類僅僅用于最簡單的粗略分類,例如根據若干組詞出現的頻度或格式特征, 判定網上文件是“網頁”還是“地圖”或是“MP3”等等。
目前,準確率較高的垂直分類技術還離不開人工參與。例如20世紀90年代雅 虎等網站的人工信息分類系統,只能承擔極少一部分網上信息的分類加工。其它 如“百度百科”、“維基百科”、“淘寶網”、“阿里巴巴”的各種數量十分有限的 專業分類信息,都是通過各自專門的數據庫平臺,由注冊會員或注冊用戶或網站 工作人員針對特定范圍的詞條,按照特殊的編寫規則匯集而成的,其中包含的附 帶分類內容也只能是針對本數據庫的少量詞條或文本的,范圍很小??梢哉f,對 于非特定網上數據庫內容的廣大用戶來說,在搜索時得到的幫助十分有限。
因此,國內外廣大網民迫切需要一種新技術,使得計算機系統或搜索引擎系 統不僅能向查詢者提供億萬文件的題錄信息,還能嚴格準確地判定文件作者認 可的各種文件的特征或類別,得到各種不同特征詞或類別詞的文件索引或其題錄 索引,并按查詢者的查詢要求和對文件特征或類別的要求,提供準確率和集中度 大為改善的搜索結果。
發明內容
本發明的目的在于提供一種適于計算機系統(包括計算機檢索系統或搜索引 擎系統)使用的方法,使其能在不同網站來源的大量相關文件的內容中尋找隱含 的特征詞信息,為各個文件確定特征詞,并對相關信息進行處理,以便產生便于 用戶利用的包含不同特征詞或分類結果的資料或檢索工具,大大提高檢索或搜索 的效率。
本發明為一種計算機執行的多個文件的處理方法,包括以下操作:
操作A:獲得多個文件;
操作B:確定(或規定或選擇)一種或者多種字符或字符組合作為特征詞內容標 記;
操作C:核查各個文件的內容里面所含有的所述特征詞內容標記的位置;將每 個文件所含有的特征詞內容標記在規定方向鄰接的(鄰接的可以是指最接近的)一 個或多個字詞,作為該文件或其題錄對應的一個或多個特征詞。
所述的計算機可以是獨立系統,也可以是計算機檢索系統或搜索引擎系統,或 其組成部分。
所述文件可以是電子文件(包括非電子形式轉化而來的電子文件)或網頁或者 網頁的部分內容或者是檢索系統或其它計算機系統存儲或轉存內容(如網頁快 照),可以包含文字內容,也可以包含圖象內容或音頻內容或視頻內容。
所述方法所述文件可以帶有特征詞內容的圖形文件或音頻文件或視頻文 件。
所述題錄可以是文件的標題或摘要或標題加摘要,可以包含圖象內容或音頻 內容或視頻內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉二中,未經劉二中許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010001183.0/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





