[發明專利]一種基于搜索結果語義分析的詞匯相關度計算方法無效

申請號：	201210188475.9	申請日：	2012-06-08
公開（公告）號：	CN102789479A	公開（公告）日：	2012-11-21
發明（設計）人：	曾劍平;段江嬌	申請（專利權）人：	復旦大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	上海正旦專利代理有限公司 31200	代理人：	陸飛;盛志范
地址：	200533 ***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于搜索結果語義分析詞匯相關計算方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于搜索結果語義分析的詞匯相關度計算方法，其特征在于具體步驟如下：

（1）設定需要進行相關度計算的兩個詞匯w1,?w2，及記錄數閾值ξ；?

（2）根據詞匯是中文或英文，生成符合www.bing.com的檢索命令，并指定為限定網站范圍的檢索，范圍設定為en.wikipedia.org或baike.baidu.com；

（3）自動建立超文本傳送協議網絡連接，通過該連接發送檢索命令到bing搜索系統；

（4）接收并處理所返回的檢索結果，即超文本標記語言文本信息，當一個頁面上的記錄處理完畢后，自動執行下一頁的檢索記錄處理，直到所有檢索記錄處理完畢或達到一定的記錄數為止；采用Web信息提取技術自動獲取頁面上的檢索記錄，基于每個檢索記錄中的摘要文本統計詞匯頻次信息；

（5）基于統計得到的詞匯頻次信息，計算得到兩個詞匯的相關度，并提示相關信息。

2.如權利要求1所述的基于搜索結果語義分析的詞匯相關度計算方法，其特征在于：步驟（4?）所述統計詞匯頻次信息的方法為：提取檢索結果頁面中的每個記錄，提取其中的摘要文本信息，并根據分割符“…”進行文本切分，得到若干個分段；對于每個分段進行詞匯頻次信息統計。

3.如權利要求1所述的基于搜索結果語義分析的詞匯相關度計算方法，其特征在于：步驟（4?）中，根據條件endRec<TotalRec，及條件Trec小于設定的記錄數閾值ξ是否成立，來決定是否要獲取更多的記錄；其中，TotalRec表示檢索結果的總記錄數，endRec表示當前頁面的記錄數，Trec已經處理過的記錄數。

4.如權利要求1中所述的基于搜索結果語義分析的詞匯相關度計算方法，其特征在于：步驟（5）中通過下面的式子計算兩個詞匯w1,?w2的相關度：

R（w1,?w2）=?TC*2?/?(T1+T2)

其中，T1是w1出現的次數，T2是w2出現的次數，TC是兩者同時出現的次數。

5.如權利要求1中所述的基于搜索結果語義分析的詞匯相關度計算方法，其特征在于：通過構造訓練集，將相似性計算結果與標注結果進行Pearson相關系數的計算，從而確定計算過程中需要的記錄數閾值ξ。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于復旦大學，未經復旦大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210188475.9/1.html，轉載請聲明來源鉆瓜專利網。