[發明專利]一種基于語言模型的排序算法無效

申請號：	200910068047.0	申請日：	2009-03-06
公開（公告）號：	CN101826075A	公開（公告）日：	2010-09-08
發明（設計）人：	劉金莉	申請（專利權）人：	劉金莉
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	300071 天津***	國省代碼：	天津;12
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于語言模型排序算法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及信息檢索領域，特別是涉及信息檢索領域的排序算法.

背景技術

隨著信息檢索技術的不斷發展和信息處理技術的進步，人們對信息檢索精度的要求越來越高，信息檢索中的算法也層出不窮.

在信息檢索領域，評價一個排序算法的好壞的重要標準就是能夠快速的讓用戶找到所需的信息，既與用于搜索主題相關的信息.所謂的檢索結果的相關性就是用戶的檢索詞與頁面的相關程度，通常相關性是排序的一個重要依據.計算頁面相關性的主要方法有google的PageRank、百度的超鏈接分析等。它們的基本原理就是根據網頁的引用情況進行排序。PageRank算法使用的是文檔之間明確的鏈接引用關系而沒有考慮語義內容，但是實際在檢索中，文檔的語義內容很重要，因此如何借助語義內容建立隱式鏈接關系來輔助排序以提高排序性能是我們關注的話題?；诟怕实恼Z言模型關注語義內容，因此我們提出基于語言模型的排序算法。

發明內容

本發明提供了一種基于語言模型的排序算法，使得排序結果更加貼近用戶的需求。

本發明提出的基于語言模型的排序算法包括下列步驟：對用戶輸入的查詢進行預處理，包括進行中文分詞和過濾停用詞；建立倒排索引單元，將候選文檔進行預處理后建立倒排索引，以便快速定位；將預處理得到的關鍵詞分布在關鍵詞索引中進行查找，以確定包含所述關鍵詞的初始文檔集合；利用生成概率在初始文檔集合上建圖得到每篇文檔的中心性權重；得到查詢與候選文檔的生成概率；確定查詢與候選文檔的總權重；按照總權重對所述各待排序的文檔進行排序。

本發明提出的基于語言模型的排序算法包括：預處理單元，對用戶輸入的查詢進行預處理，包括進行中文分詞和過濾停用詞；建立倒排索引單元，將候選文檔進行預處理后建立倒排索引，以便快速定位；獲取初始文檔集合單元，將預處理得到的關鍵詞分布在關鍵詞索引中進行查找，以確定包含所述關鍵詞的初始文檔集合；確定中心性(靜態)權重單元，利用生成概率在初始文檔集合上建圖得到每篇文檔的中心性權重；確定動態權重單元，得到查詢與候選文檔的生成概率；確定總權重單元，確定查詢與候選文檔的總權重；排序單元，按照總權重對所述各待排序的文檔進行排序。

具體實施方式

本發明中對用戶輸入的查詢進行預處理，將候選文檔進行預處理后建立倒排索引，將預處理得到的關鍵詞分布在關鍵詞索引中進行查找，以確定包含所述關鍵詞的初始文檔集合，利用生成概率在初始文檔集合上建圖得到每篇文檔的中心性權重，得到查詢與候選文檔的生成概率作為動態權重，確定查詢與候選文檔的總權重，按照總權重對所述各待排序的文檔進行排序。由于總權重中考慮了查詢與文檔的動態權重以及候選文檔之間的靜態權重，所以按照總權重對候選文檔進行排序能夠更加貼近用戶的需求。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于劉金莉，未經劉金莉許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200910068047.0/2.html，轉載請聲明來源鉆瓜專利網。