[發明專利]為搜索詞分配指標權重無效
| 申請號: | 200980150289.2 | 申請日: | 2009-12-14 |
| 公開(公告)號: | CN102246169A | 公開(公告)日: | 2011-11-16 |
| 發明(設計)人: | 劉宸 | 申請(專利權)人: | 摩托羅拉移動公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/00 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 劉光明;穆德駿 |
| 地址: | 美國伊*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索詞 分配 指標 權重 | ||
1.一種用于為文檔(300)中搜索詞分配指標權重(320)的方法,所述文檔(300)在文檔(300)集合中,該方法包括:
計算(200)文檔(300)中搜索詞的基于文本的指標權重(302,304)
計算(202)搜索詞的發音重音(318);以及
將指標權重(320)分配給文檔(300)中的搜索詞,所述指標權重(320)至少部分地基于所計算的基于文本的指標權重(302,304)和所計算的發音重音(318)的算術組合(204)。
2.根據權利要求1的方法,其中,計算文檔中搜索詞的基于文本的指標權重包括:
計算文檔中搜索詞的詞頻率;
計算文檔集合中所述搜索詞的逆文檔頻率;以及
通過算術地組合所計算的詞頻率和所計算的逆向文檔頻率來計算文檔中搜索詞的基于文本的指標權重。
3.根據權利要求1的方法,其中,計算文檔中搜索詞的基于文本的指標權重包括:
計算文檔中搜索詞的詞頻率;
計算文檔集合中所述搜索詞的辨別值;以及
通過算術地組合所計算的詞頻率和所計算的辨別值來計算文檔中搜索詞的基于文本的指標權重。
4.根據權利要求1的方法,其中,計算搜索詞的發音重音包括:
將文檔集合中的文檔中的詞翻譯成語音學發音;
計算翻譯的詞的對之間的詞間發音距離,所述計算至少部分地基于音位間距離;以及
計算搜索詞發音重音,所述計算至少部分地基于詞間發音距離。
5.根據權利要求4的方法,進一步包括:
計算音位間距離,所述計算至少部分地基于從由數據驅動技術和基于語音學技術組成的組中選擇的技術。
6.根據權利要求5的方法,其中,所述數據驅動技術包括:
推導音位混淆矩陣,所述推導至少部分地基于利用開放式音位語法的音位識別。
7.根據權利要求5的方法,其中,所述基于語音學技術包括:
將第一和第二音位中的每一個表示為向量,每個向量元素對應于各音位的區別語音學特征;
對向量元素加權重,所述加權重至少部分地基于語言中的每個特征的相對頻率,所述語言包括所述第一和第二音位;以及
估算所述第一和第二音位間的音位間距離,所述估算至少部分地基于所述第一和第二音位的向量。
8.根據權利要求4的方法,其中,計算翻譯的詞的對之間的詞間發音距離包括計算翻譯的詞的對之間的詞間發音混淆度。
9.根據權利要求4的方法,其中,計算搜索詞發音重音包括對所述搜索詞和另一詞之間的詞間發音距離的聽覺上最接近所述搜索詞的一組詞取平均值。
10.一種語音至文本搜索指標服務器(106),包括:
存儲器,被構造為存儲分配給文檔(300)中搜索詞的指標權重(320),所述文檔(300)在文檔(300)集合中;以及
處理器,其可操作地耦接到所述存儲器并且被構造為:計算(200)文檔(300)中搜索詞的基于文本的指標權重(302,304),計算(202)搜索詞的發音重音(318),以及為文檔(300)中搜索詞分配(206)指標權重(320),所述指標權重(320)至少部分地基于所計算的基于文本的指標權重(302,304)和所計算的發音重音(318)的算術組合(204)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于摩托羅拉移動公司,未經摩托羅拉移動公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200980150289.2/1.html,轉載請聲明來源鉆瓜專利網。





