[發(fā)明專利]一種基于搜索引擎的概念語義相似度度量方法在審

申請?zhí)枺?/td>	201310713182.2	申請日：	2013-12-20
公開（公告）號(hào)：	CN103678642A	公開（公告）日：	2014-03-26
發(fā)明（設(shè)計(jì)）人：	徐崢;齊力;梅林;胡傳平;支鳳麟;梁辰;駱祥峰;魏曉;張順香	申請（專利權(quán)）人：	公安部第三研究所
主分類號(hào)：	G06F17/30	分類號(hào)：	G06F17/30;G06F17/27
代理公司：	上海天翔知識(shí)產(chǎn)權(quán)代理有限公司 31224	代理人：	劉常寶
地址：	200031***	國省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于搜索引擎概念語義相似度量方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域，具體為一種度量概念語義相似度方法。

背景技術(shù)

在web挖掘,信息檢索和自然語言處理中，準(zhǔn)確地度量概念間的語義相似度是一個(gè)重要的問題。網(wǎng)絡(luò)挖掘應(yīng)用中如社區(qū)萃取,關(guān)系檢測,和概念消歧,要求能夠準(zhǔn)確地度量概念或?qū)嶓w之間的語義相似度。在信息檢索中,一個(gè)主要的問題是在用戶查詢時(shí)要檢索出一組語義相關(guān)的文件給用戶。對于各種自然語言處理任務(wù),比如單詞語義消歧,文本蘊(yùn)涵,自動(dòng)文本摘要，高效的估計(jì)詞與詞之間的語義相似度是至關(guān)重要的。

在之前的研究中，有很多基于網(wǎng)站基礎(chǔ)上的語義相似性度量的研究，主要分為以下三個(gè)方面：

（1）.根據(jù)搜索引擎返回的網(wǎng)頁數(shù)量來度量，返回的數(shù)量越大說明概念間的相似度越大。

（2）.根據(jù)文件的下載排行的數(shù)量,然后應(yīng)用頂級文本處理技術(shù)來度量。這些度量是建立這些假設(shè)基礎(chǔ)上,相似的上下文意味著相似的意義,即單詞出現(xiàn)在類似的詞匯環(huán)境有著密切的語義關(guān)系。

（3）.結(jié)合（1）和（2）來度量。

綜上所述，度量概念的語義相似度，但是度量關(guān)聯(lián)關(guān)系的主觀和客觀的方法中很少去除噪聲和網(wǎng)頁片段的冗余度。

目前已經(jīng)提出了許多不同的概念語義相似度測量方法，這些方法主要分為兩個(gè)方面：基于分類的方法和基于網(wǎng)絡(luò)的方法。基于分類的方法是使用信息理論和層次分類來計(jì)算語義相似度，然而基于網(wǎng)絡(luò)的方法與之相反，它將網(wǎng)絡(luò)作為一個(gè)動(dòng)態(tài)、實(shí)時(shí)更新的語料庫，基于語料庫來計(jì)算語義相似度。

信息內(nèi)容可以用來評價(jià)概念語義相似度，概念C的信息內(nèi)容是負(fù)的對數(shù)似然值，即是指發(fā)生概念C的可能性，根據(jù)信息內(nèi)容的思想開發(fā)了相似度詞匯集軟件來度量一對概念的語義相似度。然而兩個(gè)詞匯的距離分類是測量語義相似度更自然直接的方式。從一個(gè)詞匯到另一個(gè)詞匯的距離越短，他們就越相似。由于考慮到線、深度、密度的類型，通過計(jì)算邊緣密度、邊緣深度、邊緣強(qiáng)度的公式來測量概念語義相似度，也是一種好方法。信息內(nèi)容和兩個(gè)詞匯的距離組合在一起形成的模型可以測量概念語義相似度，然而使用空間向量模型和隨機(jī)漫步也可以測量概念語義相似度。過去有人探索了大量信息資源的語義相似度的定義，這些資源是由詞典分類的結(jié)構(gòu)化的語義信息和語料庫的信息內(nèi)容組成。為了調(diào)查信息資源的有效性，實(shí)施了大量的使用各種可能的信息資源的技術(shù)。因?yàn)樾聠卧~不斷產(chǎn)生，新的含義也被分配到存在的詞匯中。手動(dòng)的包含敘詞表的軟件比如詞匯集抓取新詞匯和新含義是耗資巨大的，如果可能的話，這使基于分類的方法在相關(guān)Web任務(wù)中顯得很不靈活。

與基于分類的方法不同，逐點(diǎn)互信息方法是使用Web搜索引擎返回的點(diǎn)擊數(shù)量來識(shí)別同義詞，共生雙重檢查是將Web作為更新的語料庫，這種方法的核心是搜索引擎的排名算法。相似的內(nèi)核函數(shù)可以通過google定義搜索到的概念語義相似度，相似的內(nèi)核函數(shù)的功能是在一個(gè)大規(guī)模的系統(tǒng)中向搜索引擎使用者建議相關(guān)的詢問。基于語料庫的方法即叫做二階共生PMI，來計(jì)算兩個(gè)目標(biāo)詞匯的語義相似度。該方法是使用相互的信息去分類兩個(gè)目標(biāo)詞匯的一系列重要的相鄰詞匯。Web搜索引擎提供的頁面計(jì)數(shù)和段落也可以測量語義相似度。這種方法需要借助于一些從段落中自動(dòng)提取的語法模式。在這個(gè)方法中，從排名前900的片段中提取200個(gè)模式，200個(gè)模式來自于4562471獨(dú)一無二的模式。因?yàn)榕琶壳暗哪Ｊ诫S著時(shí)間的推移而改變，大量的獨(dú)一無二的模式的再生讓這種方法很耗時(shí)，因此，提取模式極大地影響了這個(gè)方法。

綜上所述，目前存在的基于網(wǎng)站的度量語義相似度方法缺少相關(guān)的機(jī)制處理網(wǎng)站數(shù)據(jù)中的噪聲和冗余度。

發(fā)明內(nèi)容

針對現(xiàn)有度量語義相似度方法無法處理網(wǎng)站數(shù)據(jù)中的噪聲和冗余度的問題，本發(fā)明的目的在于提供一種基于搜索引擎的概念語義相似度度量方法，有效移除了搜索引擎數(shù)據(jù)中存在的噪聲和冗余度。

為了達(dá)到上述目的，本發(fā)明采用如下的技術(shù)方案：

一種基于搜索引擎的概念語義相似度度量方法，所述度量方法包括如下步驟：

（1）網(wǎng)頁計(jì)數(shù)，由搜索引擎搜索相關(guān)概念，并返回相應(yīng)的網(wǎng)頁數(shù)量；

（2）語義片段，通過搜索引擎搜索提供包括所有概念的語義片段，并計(jì)算包括所有概念的語義片段占搜索引擎搜索返回的所有語義片段的比例；

（3）已顯示的搜索結(jié)果的數(shù)量，通過搜索引擎搜索顯示搜索到的結(jié)果，并提供已顯示的結(jié)果的數(shù)量；

（4）根據(jù)步驟（1）至（3）提供的結(jié)果進(jìn)行概念語義相似度計(jì)算。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于公安部第三研究所，未經(jīng)公安部第三研究所許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310713182.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種BOM表分類匯總系統(tǒng)及其方法
下一篇：一種基于社交網(wǎng)絡(luò)平臺(tái)的Web服務(wù)推薦方法

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】