[發明專利]一種基于搜索結果語義分析的詞匯相關度計算方法無效
| 申請號: | 201210188475.9 | 申請日: | 2012-06-08 |
| 公開(公告)號: | CN102789479A | 公開(公告)日: | 2012-11-21 |
| 發明(設計)人: | 曾劍平;段江嬌 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;盛志范 |
| 地址: | 200533 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 搜索 結果 語義 分析 詞匯 相關 計算方法 | ||
1.一種基于搜索結果語義分析的詞匯相關度計算方法,其特征在于具體步驟如下:
(1)設定需要進行相關度計算的兩個詞匯w1,?w2,及記錄數閾值ξ;?
(2)根據詞匯是中文或英文,生成符合www.bing.com的檢索命令,并指定為限定網站范圍的檢索,范圍設定為en.wikipedia.org或baike.baidu.com;
(3)自動建立超文本傳送協議網絡連接,通過該連接發送檢索命令到bing搜索系統;
(4)接收并處理所返回的檢索結果,即超文本標記語言文本信息,當一個頁面上的記錄處理完畢后,自動執行下一頁的檢索記錄處理,直到所有檢索記錄處理完畢或達到一定的記錄數為止;采用Web信息提取技術自動獲取頁面上的檢索記錄,基于每個檢索記錄中的摘要文本統計詞匯頻次信息;
(5)基于統計得到的詞匯頻次信息,計算得到兩個詞匯的相關度,并提示相關信息。
2.如權利要求1所述的基于搜索結果語義分析的詞匯相關度計算方法,其特征在于:步驟(4?)所述統計詞匯頻次信息的方法為:提取檢索結果頁面中的每個記錄,提取其中的摘要文本信息,并根據分割符“…”進行文本切分,得到若干個分段;對于每個分段進行詞匯頻次信息統計。
3.如權利要求1所述的基于搜索結果語義分析的詞匯相關度計算方法,其特征在于:步驟(4?)中,根據條件endRec<TotalRec,及條件Trec小于設定的記錄數閾值ξ是否成立,來決定是否要獲取更多的記錄;其中,TotalRec表示檢索結果的總記錄數,endRec表示當前頁面的記錄數,Trec已經處理過的記錄數。
4.如權利要求1中所述的基于搜索結果語義分析的詞匯相關度計算方法,其特征在于:步驟(5)中通過下面的式子計算兩個詞匯w1,?w2的相關度:
R(w1,?w2)=?TC*2?/?(T1+T2)
其中,T1是w1出現的次數,T2是w2出現的次數,TC是兩者同時出現的次數。
5.如權利要求1中所述的基于搜索結果語義分析的詞匯相關度計算方法,其特征在于:通過構造訓練集,將相似性計算結果與標注結果進行Pearson相關系數的計算,從而確定計算過程中需要的記錄數閾值ξ。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210188475.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種軋機鎖緊機構
- 下一篇:安全留置針具改良結構





