[發(fā)明專利]一種跨語言搜索的方法和裝置有效
| 申請?zhí)枺?/td> | 201110047892.7 | 申請日: | 2011-02-28 |
| 公開(公告)號: | CN102651003A | 公開(公告)日: | 2012-08-29 |
| 發(fā)明(設(shè)計)人: | 趙世奇;吳華;王海峰 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市威世博知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44280 | 代理人: | 何青瓦;李慶波 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語言 搜索 方法 裝置 | ||
【技術(shù)領(lǐng)域】
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種跨語言搜索的方法和裝置。
【背景技術(shù)】
隨著互聯(lián)網(wǎng)信息的不斷增長,人們對于信息搜索提出了更高的要求,不再滿足于在同一種語種文檔集中搜索,而要求獲取多種語種文檔。例如,如果用戶輸入的搜索詞(query)為“貝克漢姆圖片”,則中文文檔集中的搜索可能并不能最大程度地滿足用戶需求,歐美網(wǎng)站的英文文檔集中可能具有更優(yōu)、更多的搜索結(jié)果。
當(dāng)從多語種文檔集中進(jìn)行搜索的需求越來越高時,為了獲得更多、更全面、更準(zhǔn)確的信息,同時為了跨越語言障礙,人們希望能夠以一種自己熟悉的語言描述query,而搜索結(jié)果中能夠包括多語言的文檔,即進(jìn)行兩語種之間的跨語言搜索。
【發(fā)明內(nèi)容】
有鑒于此,本發(fā)明提供了一種跨語言搜索的方法和裝置,以便于實現(xiàn)包含多語言文檔的搜索結(jié)果,為用戶提供更優(yōu)、更多的搜索結(jié)果。
具體技術(shù)方案如下:
一種跨語言搜索的方法,該方法包括:
A、接收用戶輸入的源語言搜索請求query;
B、將所述源語言query翻譯為N種目標(biāo)語言query,N為大于1的整數(shù);
C、分別獲取所述N種目標(biāo)語言query對應(yīng)的搜索結(jié)果;
D、將步驟C獲取的搜索結(jié)果進(jìn)行整合后形成最終的搜索結(jié)果集合提供給用戶;
其中在所述最終的搜索結(jié)果集合中,根據(jù)各搜索結(jié)果在所屬分類中的排次以及所屬分類的排序權(quán)重,對各搜索結(jié)果進(jìn)行排序。
在步驟B中,針對每一種目標(biāo)語言,將所述源語言query對應(yīng)的該種目標(biāo)語言的翻譯結(jié)果中,翻譯分值最高的一種翻譯結(jié)果作為目標(biāo)語言query;
翻譯結(jié)果e的翻譯分值由以下因素中的至少一種確定:翻譯所使用的翻譯語料庫中翻譯結(jié)果e的統(tǒng)計次數(shù)以及翻譯結(jié)果e中各詞的組合概率。
較優(yōu)地,所述步驟B具體包括:
B1、對所述源語言query進(jìn)行優(yōu)化處理,所述優(yōu)化處理包括query糾錯處理和query擴(kuò)展處理中的任一種或組合;
B2、將優(yōu)化處理后的源語言query翻譯為N種目標(biāo)語言query。
其中,如果所述優(yōu)化處理僅包括query糾錯處理,則對所述用戶輸入的源語言query進(jìn)行query糾錯處理后得到包含n1個query的源語言query集合Q1,n1為預(yù)設(shè)的正整數(shù);
所述步驟B2具體為:針對每一種目標(biāo)語言,分別利用所述Q1中的各query進(jìn)行翻譯,確定翻譯分值總和最高的翻譯結(jié)果作為目標(biāo)語言query;其中,翻譯結(jié)果的翻譯分值總和為P(e|qi)為Q1中qi被翻譯為e的翻譯分值;
翻譯結(jié)果e對應(yīng)的翻譯分值由以下因素中的至少一種確定:翻譯所使用的翻譯語料庫中翻譯結(jié)果e的統(tǒng)計次數(shù)以及翻譯結(jié)果e中各詞的組合概率。
如果所述優(yōu)化處理僅包括query擴(kuò)展處理,則對所述用戶輸入的源語言query進(jìn)行query擴(kuò)展處理后得到包含n2個query的源語言query集合Q2,n2為預(yù)設(shè)的正整數(shù);
所述步驟B2具體為:針對每一種目標(biāo)語言,分別利用所述Q2中的各query進(jìn)行翻譯,確定翻譯分值總和最高的翻譯結(jié)果作為目標(biāo)語言query;其中,翻譯結(jié)果的翻譯分值總和為P(e|qi)為Q2中qi被翻譯為e的翻譯分值;
翻譯結(jié)果e對應(yīng)的翻譯分值由以下因素中的至少一種確定:翻譯所使用的翻譯語料庫中翻譯結(jié)果e的統(tǒng)計次數(shù)以及翻譯結(jié)果e中各詞的組合概率。
如果所述優(yōu)化處理既包括query糾錯處理又包括query擴(kuò)展處理,則對所述用戶輸入的源語言query進(jìn)行query糾錯處理和query擴(kuò)展處理后得到包含n個query的源語言query集合Q,n為預(yù)設(shè)的正整數(shù);
所述步驟B2具體為:針對每一種目標(biāo)語言,分別利用所述Q中的各query進(jìn)行翻譯,確定翻譯分值總和最高的翻譯結(jié)果作為目標(biāo)語言query;其中,翻譯結(jié)果的翻譯分值總和為P(e|qi)為Q中qi被翻譯為e的翻譯分值;
翻譯結(jié)果e的翻譯分值由以下因素中的至少一種確定:翻譯所使用的翻譯語料庫中翻譯結(jié)果e的統(tǒng)計次數(shù)以及翻譯結(jié)果e中各詞的組合概率。
其中,對所述用戶輸入的源語言query進(jìn)行query糾錯處理后和query擴(kuò)展處理后得到包含n個query的源語言query集合Q具體包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110047892.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:照明LED燈
- 下一篇:一種整裝化多通閥智能選井計量站





