[發(fā)明專利]一種基于搜索引擎的概念語義相似度度量方法在審
| 申請?zhí)枺?/td> | 201310713182.2 | 申請日: | 2013-12-20 |
| 公開(公告)號(hào): | CN103678642A | 公開(公告)日: | 2014-03-26 |
| 發(fā)明(設(shè)計(jì))人: | 徐崢;齊力;梅林;胡傳平;支鳳麟;梁辰;駱祥峰;魏曉;張順香 | 申請(專利權(quán))人: | 公安部第三研究所 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 上海天翔知識(shí)產(chǎn)權(quán)代理有限公司 31224 | 代理人: | 劉常寶 |
| 地址: | 200031*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 搜索引擎 概念 語義 相似 度量 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,具體為一種度量概念語義相似度方法。
背景技術(shù)
在web挖掘,信息檢索和自然語言處理中,準(zhǔn)確地度量概念間的語義相似度是一個(gè)重要的問題。網(wǎng)絡(luò)挖掘應(yīng)用中如社區(qū)萃取,關(guān)系檢測,和概念消歧,要求能夠準(zhǔn)確地度量概念或?qū)嶓w之間的語義相似度。在信息檢索中,一個(gè)主要的問題是在用戶查詢時(shí)要檢索出一組語義相關(guān)的文件給用戶。對于各種自然語言處理任務(wù),比如單詞語義消歧,文本蘊(yùn)涵,自動(dòng)文本摘要,高效的估計(jì)詞與詞之間的語義相似度是至關(guān)重要的。
在之前的研究中,有很多基于網(wǎng)站基礎(chǔ)上的語義相似性度量的研究,主要分為以下三個(gè)方面:
(1).根據(jù)搜索引擎返回的網(wǎng)頁數(shù)量來度量,返回的數(shù)量越大說明概念間的相似度越大。
(2).根據(jù)文件的下載排行的數(shù)量,然后應(yīng)用頂級文本處理技術(shù)來度量。這些度量是建立這些假設(shè)基礎(chǔ)上,相似的上下文意味著相似的意義,即單詞出現(xiàn)在類似的詞匯環(huán)境有著密切的語義關(guān)系。
(3).結(jié)合(1)和(2)來度量。
綜上所述,度量概念的語義相似度,但是度量關(guān)聯(lián)關(guān)系的主觀和客觀的方法中很少去除噪聲和網(wǎng)頁片段的冗余度。
目前已經(jīng)提出了許多不同的概念語義相似度測量方法,這些方法主要分為兩個(gè)方面:基于分類的方法和基于網(wǎng)絡(luò)的方法。基于分類的方法是使用信息理論和層次分類來計(jì)算語義相似度,然而基于網(wǎng)絡(luò)的方法與之相反,它將網(wǎng)絡(luò)作為一個(gè)動(dòng)態(tài)、實(shí)時(shí)更新的語料庫,基于語料庫來計(jì)算語義相似度。
信息內(nèi)容可以用來評價(jià)概念語義相似度,概念C的信息內(nèi)容是負(fù)的對數(shù)似然值,即是指發(fā)生概念C的可能性,根據(jù)信息內(nèi)容的思想開發(fā)了相似度詞匯集軟件來度量一對概念的語義相似度。然而兩個(gè)詞匯的距離分類是測量語義相似度更自然直接的方式。從一個(gè)詞匯到另一個(gè)詞匯的距離越短,他們就越相似。由于考慮到線、深度、密度的類型,通過計(jì)算邊緣密度、邊緣深度、邊緣強(qiáng)度的公式來測量概念語義相似度,也是一種好方法。信息內(nèi)容和兩個(gè)詞匯的距離組合在一起形成的模型可以測量概念語義相似度,然而使用空間向量模型和隨機(jī)漫步也可以測量概念語義相似度。過去有人探索了大量信息資源的語義相似度的定義,這些資源是由詞典分類的結(jié)構(gòu)化的語義信息和語料庫的信息內(nèi)容組成。為了調(diào)查信息資源的有效性,實(shí)施了大量的使用各種可能的信息資源的技術(shù)。因?yàn)樾聠卧~不斷產(chǎn)生,新的含義也被分配到存在的詞匯中。手動(dòng)的包含敘詞表的軟件比如詞匯集抓取新詞匯和新含義是耗資巨大的,如果可能的話,這使基于分類的方法在相關(guān)Web任務(wù)中顯得很不靈活。
與基于分類的方法不同,逐點(diǎn)互信息方法是使用Web搜索引擎返回的點(diǎn)擊數(shù)量來識(shí)別同義詞,共生雙重檢查是將Web作為更新的語料庫,這種方法的核心是搜索引擎的排名算法。相似的內(nèi)核函數(shù)可以通過google定義搜索到的概念語義相似度,相似的內(nèi)核函數(shù)的功能是在一個(gè)大規(guī)模的系統(tǒng)中向搜索引擎使用者建議相關(guān)的詢問。基于語料庫的方法即叫做二階共生PMI,來計(jì)算兩個(gè)目標(biāo)詞匯的語義相似度。該方法是使用相互的信息去分類兩個(gè)目標(biāo)詞匯的一系列重要的相鄰詞匯。Web搜索引擎提供的頁面計(jì)數(shù)和段落也可以測量語義相似度。這種方法需要借助于一些從段落中自動(dòng)提取的語法模式。在這個(gè)方法中,從排名前900的片段中提取200個(gè)模式,200個(gè)模式來自于4562471獨(dú)一無二的模式。因?yàn)榕琶壳暗哪J诫S著時(shí)間的推移而改變,大量的獨(dú)一無二的模式的再生讓這種方法很耗時(shí),因此,提取模式極大地影響了這個(gè)方法。
綜上所述,目前存在的基于網(wǎng)站的度量語義相似度方法缺少相關(guān)的機(jī)制處理網(wǎng)站數(shù)據(jù)中的噪聲和冗余度。
發(fā)明內(nèi)容
針對現(xiàn)有度量語義相似度方法無法處理網(wǎng)站數(shù)據(jù)中的噪聲和冗余度的問題,本發(fā)明的目的在于提供一種基于搜索引擎的概念語義相似度度量方法,有效移除了搜索引擎數(shù)據(jù)中存在的噪聲和冗余度。
為了達(dá)到上述目的,本發(fā)明采用如下的技術(shù)方案:
一種基于搜索引擎的概念語義相似度度量方法,所述度量方法包括如下步驟:
(1)網(wǎng)頁計(jì)數(shù),由搜索引擎搜索相關(guān)概念,并返回相應(yīng)的網(wǎng)頁數(shù)量;
(2)語義片段,通過搜索引擎搜索提供包括所有概念的語義片段,并計(jì)算包括所有概念的語義片段占搜索引擎搜索返回的所有語義片段的比例;
(3)已顯示的搜索結(jié)果的數(shù)量,通過搜索引擎搜索顯示搜索到的結(jié)果,并提供已顯示的結(jié)果的數(shù)量;
(4)根據(jù)步驟(1)至(3)提供的結(jié)果進(jìn)行概念語義相似度計(jì)算。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于公安部第三研究所,未經(jīng)公安部第三研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310713182.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 內(nèi)容-索引搜索系統(tǒng)和方法
- 通過若干搜索引擎實(shí)現(xiàn)的聯(lián)合搜索
- 一種深層網(wǎng)移動(dòng)搜索方法、服務(wù)器及系統(tǒng)
- 搜索引擎的狀態(tài)獲取方法、裝置以及瀏覽器
- 一種瀏覽器中進(jìn)行網(wǎng)頁搜索的方法及裝置
- 通過若干搜索引擎實(shí)現(xiàn)的聯(lián)合搜索
- 通過搜索引擎生成定制化內(nèi)容的方法、系統(tǒng)及搜索引擎
- 通過搜索引擎?zhèn)鬟f信息的方法、系統(tǒng)及搜索引擎
- 搜索引擎的切換方法、裝置以及電子設(shè)備
- 搜索引擎處理方法、裝置、終端及存儲(chǔ)介質(zhì)
- 概念識(shí)別設(shè)備和方法
- 一種基于重要度度量的概念圖自動(dòng)布圖方法
- 一種用于問答系統(tǒng)中的自動(dòng)答案摘要方法及系統(tǒng)
- 基于概念關(guān)聯(lián)的概念空間導(dǎo)航方法
- 基于形式概念格的分面搜索方法及系統(tǒng)
- 用于更新模型參數(shù)的方法、裝置、設(shè)備和介質(zhì)
- 一種基于機(jī)器學(xué)習(xí)的計(jì)算方法和計(jì)算單元
- 概念圖處理裝置、概念圖處理方法和計(jì)算機(jī)可讀介質(zhì)
- 知識(shí)概念構(gòu)建方法和裝置
- 基于無監(jiān)督的概念到句子的生成對抗網(wǎng)絡(luò)圖像描述方法
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





