[發(fā)明專利]一種公式化數(shù)據(jù)的搜索方法及裝置有效
| 申請?zhí)枺?/td> | 201210158383.6 | 申請日: | 2012-05-18 |
| 公開(公告)號: | CN102693303B | 公開(公告)日: | 2017-06-06 |
| 發(fā)明(設(shè)計)人: | 侯秀峰;徐飛;張國晨 | 申請(專利權(quán))人: | 上海極值信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海市錦天城律師事務(wù)所31273 | 代理人: | 劉民選 |
| 地址: | 201209 上海市浦東新區(qū)金海路2*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 公式化 數(shù)據(jù) 搜索 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及搜索引擎技術(shù),尤其涉及一種公式化數(shù)據(jù)的搜索方法及裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展、以及各種類型的數(shù)字化內(nèi)容(文本、圖片、音頻和視頻等)以指數(shù)級的形式呈現(xiàn)出爆炸性的增長,如何根據(jù)用戶的輸入在海量信息中準(zhǔn)確地查找相關(guān)內(nèi)容,是一個非常基礎(chǔ)而又具有重大意義的技術(shù)挑戰(zhàn)。目前,以Google、百度等為代表的通用搜索引擎在一定程度上已經(jīng)較好地解決了這一難題。
然而以通用搜索引擎為代表及其他基于傳統(tǒng)的文本檢索系統(tǒng)的軟件、網(wǎng)絡(luò)應(yīng)用等,在針對各類數(shù)理化公式及其他符號(如五線譜、化學(xué)分子式等)的搜索上仍然具有很大的局限性,從而在理科教育、科研工程甚至其他方面無法滿足用戶的搜索需求。現(xiàn)有技術(shù)中所常用的數(shù)學(xué)搜索系統(tǒng)主要有利用文本信息檢索系統(tǒng)對數(shù)學(xué)關(guān)鍵詞搜索和對數(shù)學(xué)公式等內(nèi)容進(jìn)行粗粒度搜索。其中利用文本信息檢索系統(tǒng)對數(shù)學(xué)關(guān)鍵詞搜索是一種基于數(shù)學(xué)術(shù)語元數(shù)據(jù)搜索,可以實(shí)現(xiàn)對數(shù)學(xué)內(nèi)容進(jìn)行粗粒度搜索,這種方法無需考慮數(shù)學(xué)搜索與通用搜索的區(qū)別。這種方法通常可以同時支持文本搜索和數(shù)學(xué)公式搜索。但是不支持更高級別的數(shù)學(xué)搜索,比如要搜索a2+c=2a,其中a可以是任意相同的表達(dá)式,這種查詢就不能執(zhí)行。這種方法最大的優(yōu)勢在于依賴一種已存在的成熟技術(shù),但是它沒有完全支持面向數(shù)學(xué)公式的查詢。另一種相似的思想是依靠基于XML的XQuery搜索引擎。這兩種方法的優(yōu)勢在于都依靠一種已存在的技術(shù),但是它們都沒有提供完全面向數(shù)學(xué)的搜索方法。
對數(shù)學(xué)公式等內(nèi)容進(jìn)行細(xì)粒度搜索,對數(shù)學(xué)公式的整體及部分具有一定語法結(jié)構(gòu)和語義的子公式建立索引并進(jìn)行搜索,這種方法比文本信息檢索系統(tǒng)具有更強(qiáng)大的功能,并且更加高效。比如將模式匹配應(yīng)用到基礎(chǔ)編程語言中,在數(shù)據(jù)庫中搜索數(shù)學(xué)內(nèi)容并從中搜集到結(jié)構(gòu)化元數(shù)據(jù)以進(jìn)行有效檢索。具體而言,現(xiàn)有技術(shù)中所使用的兩種數(shù)學(xué)公式搜索方法的局限性主要表現(xiàn)在以下兩個方面:
1.輸入障礙
對于一些簡單的如數(shù)學(xué)公式y(tǒng)=3x+5之類的公式化數(shù)據(jù),用戶可以通過鍵盤直接輸入;而對于諸如這類結(jié)構(gòu)性并不算復(fù)雜的公式如何準(zhǔn)確進(jìn)行輸入,則缺乏統(tǒng)一的標(biāo)準(zhǔn)。具有一定數(shù)學(xué)和計算機(jī)語言知識背景的專業(yè)人士可能會輸入1/sqrt(x)、1/sqrt{x}或一種出版行業(yè)通用的編輯排版的LaTeX語言的標(biāo)準(zhǔn)表達(dá)式/frac{1}{/sqrt{x}},甚至不規(guī)則的近似輸入1/√x以√代替根號。但對于結(jié)構(gòu)更為復(fù)雜的微積分表達(dá)式,例如則令用戶捉襟見肘、根本無法輸入,即使近似輸入來表達(dá)積分區(qū)間也幾乎不可能。
2.搜索結(jié)果的準(zhǔn)確度和相關(guān)性
現(xiàn)有基于文本的搜索引擎在針對數(shù)理化公式的搜索方面僅限于基于關(guān)鍵詞和字符串的搜索,即只能確保統(tǒng)計意義上的大致正確。然而數(shù)理化公式和符號是一類較為特殊的、具有結(jié)構(gòu)化特征的語言,其語義依賴于特定的公式結(jié)構(gòu):例如同樣含有“x+y”,但和2(x+y)這兩個公式的數(shù)學(xué)意義相去甚遠(yuǎn)。因此相關(guān)的搜索算法如果僅從純文本的角度進(jìn)行字面意義上的匹配和排序,則無法確保搜索結(jié)果數(shù)學(xué)意義上的正確性,從而導(dǎo)致搜索的準(zhǔn)確性和相關(guān)度下降,且精度不能達(dá)到一定標(biāo)準(zhǔn)、搜索算法過于模糊則失去使用價值。
有鑒于此,現(xiàn)有技術(shù)中急需要一種新的針對公式化數(shù)據(jù)的搜索方法及裝置。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明提供一種公式化數(shù)據(jù)的搜索方法及裝置,該搜索方法及裝置能使用戶方便地輸入復(fù)雜公式,且針對該公式的搜索準(zhǔn)確度和相關(guān)性均能有效提高。為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明公開一種公式化數(shù)據(jù)搜索裝置,包括:至少一用戶端,該用戶端包括一公式輸入模塊,用于輸入公式并轉(zhuǎn)換為一文本化編碼;一服務(wù)器,該服務(wù)器包括一搜索模塊,該搜索模塊至少包括一數(shù)據(jù)庫用于存儲與公式對應(yīng)的文本化編碼;該搜索模塊根據(jù)該文本化編碼查詢該數(shù)據(jù)庫并將查詢結(jié)果返回該用戶端。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海極值信息技術(shù)有限公司,未經(jīng)上海極值信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210158383.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





