[發(fā)明專利]為搜索詞分配指標(biāo)權(quán)重無效
| 申請?zhí)枺?/td> | 200980150289.2 | 申請日: | 2009-12-14 |
| 公開(公告)號(hào): | CN102246169A | 公開(公告)日: | 2011-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 劉宸 | 申請(專利權(quán))人: | 摩托羅拉移動(dòng)公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/00 |
| 代理公司: | 中原信達(dá)知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 劉光明;穆德駿 |
| 地址: | 美國伊*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 搜索詞 分配 指標(biāo) 權(quán)重 | ||
技術(shù)領(lǐng)域
本申請主要涉及計(jì)算機(jī)為媒介的搜索工具,特別涉及為文檔中的搜索詞分配指標(biāo)權(quán)重。
背景技術(shù)
在通常的搜索情形中,用戶鍵入搜索字符串。該字符串提交給搜索引擎分析。在分析過程中,字符串中許多詞而不是全部詞都變?yōu)椤八阉髟~”(例如“a”和“the”沒有變?yōu)樗阉髟~并且通常會(huì)被忽略)。然后搜索引擎查找包含該搜索詞的適當(dāng)?shù)奈臋n并且將那些適當(dāng)?shù)奈臋n的列表示出為“命中”以用于用戶瀏覽。
給出一個(gè)搜索詞,查找包含該搜索詞的合適的文檔是一個(gè)精密而復(fù)雜的過程。與簡單地拉出所有包含該搜索詞的文檔不同,智能搜索引擎首先預(yù)處理在其集合中的所有文檔。對每篇文檔,搜索引擎準(zhǔn)備文檔中包含和文檔中重要的可能搜索詞的列表。關(guān)于文檔中的詞的重要性(稱為其的“指標(biāo)權(quán)重”),有很多已知的度量。一個(gè)常見的度量為“詞頻率-逆向文檔頻率”(“TF-IDF”)。簡單地,該指標(biāo)權(quán)重與詞在文檔中出現(xiàn)的次數(shù)成比例并且與包含該詞的集合中文檔的數(shù)目成反比。例如,詞“這個(gè)”可能在文檔中出現(xiàn)多次。然而,“這個(gè)”也出現(xiàn)在集合中幾乎每篇文檔中,而因此它的TF-IDF非常低。另一方面,因?yàn)榧峡赡苤挥袔灼~“鯨魚”的文檔,則詞“鯨魚”在其中反復(fù)出現(xiàn)的文檔對于鯨魚有些論述,因此,對于該文檔,“鯨魚”具有高的TF-IDF。
因此,智能搜索引擎沒有簡單地列出包含用戶的搜索詞的所有文檔,而是僅僅列出那些包含具有相對高的TF-IDF(或者搜索引擎使用的任何其他的詞重要性度量)的那些文檔。以這種方式,智能搜索引擎將最有可能滿足用戶需要的那些文檔放在接近返回的文檔列表的頂部。
然而,當(dāng)用戶是說出搜索字符串而不是鍵入時(shí)該情形并不有效。在通常的情形中,用戶的小型個(gè)人通信裝置(比如蜂窩電話或者個(gè)人數(shù)字助理)沒有足夠空間用于全鍵盤。相反,具有限制性的鍵盤,該鍵盤可能具有很多很小的按鍵,這些按鍵對于觸摸打字來說太小;或者鍵盤具有幾個(gè)按鍵,每個(gè)按鍵代表若干字母或者符號(hào)。用戶發(fā)現(xiàn)限制性鍵盤不適合用于輸入復(fù)雜的搜索查詢,因此用戶轉(zhuǎn)向基于語音的搜索。
在這里,用戶說出搜索查詢。語音至文本引擎將說出的查詢轉(zhuǎn)換為文本。獲得的文本查詢?nèi)缓笕缟纤龅赜蓸?biāo)準(zhǔn)的基于文本的搜索引擎處理。
雖然該處理適用于大多數(shù)情況,但是基于語音的搜索產(chǎn)生了新的問題。特別是,公知技術(shù)是單純地基于文檔的文本方面來給文檔中的詞分配指標(biāo)權(quán)重的。
發(fā)明內(nèi)容
本發(fā)明針對解決以上及其他考慮,可以參照說明書、附圖和權(quán)利要求理解本發(fā)明。根據(jù)本發(fā)明的方面,文檔中的潛在搜索詞被分配有基于詞的文本和聲學(xué)兩方面的指標(biāo)權(quán)重。
在一實(shí)施例中,傳統(tǒng)的基于文本的權(quán)重被分配給潛在的搜索詞。該權(quán)重可以是TF-IDF、TF-DV(詞頻率-辨別值)或者是任何其他基于文本的權(quán)重。然后,對于同一詞計(jì)算發(fā)音重音權(quán)重。基于文本的權(quán)重和發(fā)音重音權(quán)重被算術(shù)地組合成用于該詞的最終的指標(biāo)權(quán)重。當(dāng)輸入基于語音的搜索字符串時(shí),該組合的指標(biāo)權(quán)重用于確定每篇文檔中每個(gè)搜索詞的重要性。
正因?yàn)榇嬖诤芏嘁阎挠糜谟?jì)算基于文本的指標(biāo)權(quán)重的可能性,因此預(yù)期用于計(jì)算發(fā)音重音的幾種可能性。在一些實(shí)施例中,對于文檔中的詞的對,基于音位間距離計(jì)算詞間發(fā)音距離。能夠使用數(shù)據(jù)驅(qū)動(dòng)和基于語音學(xué)技術(shù)來計(jì)算音位間距離。下面將描述該過程的詳細(xì)情況和其他可能性。
附圖說明
雖然所附權(quán)利要求書特別地闡明了本發(fā)明的特征,但是可以通過下面的結(jié)合附圖的詳細(xì)說明更好地理解本發(fā)明及其目的和優(yōu)點(diǎn):
圖1是可以實(shí)施本發(fā)明的代表性環(huán)境的概述;
圖2是給搜索詞分配指標(biāo)權(quán)重的示例方法的流程圖;
圖3是示出可以如何計(jì)算指標(biāo)權(quán)重的數(shù)據(jù)流圖;
圖4a和4b是根據(jù)本發(fā)明計(jì)算的指標(biāo)權(quán)重的性能和先前技術(shù)的指標(biāo)權(quán)重的性能的比較的試驗(yàn)結(jié)果的表格。
具體實(shí)施方式
參考附圖,其中相同的附圖標(biāo)記表示相同的元件,本發(fā)明被示出為在適合的環(huán)境中實(shí)施。下面的描述基于本發(fā)明的實(shí)施例并且不應(yīng)該視為在這里沒有詳細(xì)描述的替代實(shí)施例方面限制了本發(fā)明。
在圖1中,用戶102想進(jìn)行搜索。不管什么原因,用戶102選擇說出他的搜索查詢至他的個(gè)人通信裝置104而不是鍵入該搜索查詢。用戶102的語音輸入被處理(在裝置104上本地處理或者在遠(yuǎn)程搜索服務(wù)器106上處理)為文本查詢。該文本查詢被提交給搜索引擎(再一次說明:本地地或者遠(yuǎn)程地)。搜索結(jié)果在裝置104的顯示屏上展示給用戶102。通信網(wǎng)絡(luò)100使得裝置104能夠在適當(dāng)?shù)那闆r下訪問該遠(yuǎn)程搜索服務(wù)器106,并且在用戶102的指導(dǎo)下在搜索結(jié)果中取回“命中”。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于摩托羅拉移動(dòng)公司,未經(jīng)摩托羅拉移動(dòng)公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200980150289.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 權(quán)重調(diào)整模塊與權(quán)重調(diào)整方法
- 網(wǎng)頁主題的分類方法及裝置
- 接收裝置
- 基于權(quán)重濾波的視頻去噪裝置及方法
- 權(quán)重?cái)?shù)據(jù)存儲(chǔ)方法和基于該方法的神經(jīng)網(wǎng)絡(luò)處理器
- 危害因素的權(quán)重因子的確定方法、裝置及存儲(chǔ)介質(zhì)
- 用于優(yōu)化神經(jīng)網(wǎng)絡(luò)的方法
- 處理器
- 用于對深度神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行轉(zhuǎn)換的方法和系統(tǒng)
- 神經(jīng)網(wǎng)絡(luò)的量化方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)





