[發(fā)明專利]完整語言序列的語言建模有效
| 申請?zhí)枺?/td> | 201380076599.0 | 申請日: | 2013-11-19 |
| 公開(公告)號: | CN105229723B | 公開(公告)日: | 2019-10-22 |
| 發(fā)明(設(shè)計)人: | C.I.切爾巴;H.薩克;J.沙爾克威克 | 申請(專利權(quán))人: | 谷歌有限責任公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/197 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 邵亞麗;金玉潔 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 完整 語言 序列 建模 | ||
1.一種由數(shù)據(jù)處理裝置執(zhí)行的用于語言建模的方法,所述方法包括:
訪問指示一個或多個用戶所提交的查詢的訓練數(shù)據(jù);
針對所述查詢中的每一個查詢確定訓練數(shù)據(jù)指示該查詢被提交的次數(shù)的計數(shù);
基于計數(shù)選擇所述查詢的真子集;
基于計數(shù)訓練語言模型的第一組件,所述第一組件包括指示訓練數(shù)據(jù)當中被選查詢的相對頻率的第一概率數(shù)據(jù);
基于訓練數(shù)據(jù)訓練語言模型的第二組件,所述第二組件包括用于向所述被選查詢中未包括的查詢指派評分的第二概率數(shù)據(jù);
確定相對于第一概率數(shù)據(jù)歸一化第二概率數(shù)據(jù)的調(diào)整數(shù)據(jù);
存儲第一組件、第二組件和調(diào)整數(shù)據(jù);
使用語言模型的第一組件來確定特定查詢的第一評分;
使用語言模型的第二組件來確定所述特定查詢的第二評分;
確定第一評分和第二評分不滿足預(yù)定關(guān)系;以及
響應(yīng)于確定第一評分和第二評分不滿足預(yù)定關(guān)系,從所述被選查詢中去除所述特定查詢以生成變更的被選查詢集合。
2.如權(quán)利要求1所述的方法,其中,基于計數(shù)訓練語言模型的第一組件包括:生成在局限于出現(xiàn)在訓練數(shù)據(jù)中的查詢的可能結(jié)果的集合上的第一概率分布;并且
其中,基于訓練數(shù)據(jù)訓練語言模型的第二組件包括:生成第二概率分布,對于所述第二概率分布,可能結(jié)果的范圍不局限于定義的查詢集合。
3.如權(quán)利要求2所述的方法,其中,確定調(diào)整數(shù)據(jù)包括:確定用于相對于第一概率分布對第二概率分布加權(quán)以形成組合概率分布的一個或多個權(quán)重值。
4.如權(quán)利要求1所述的方法,其中,訪問指示一個或多個用戶所提交的查詢的訓練數(shù)據(jù)包括:訪問指示不同用戶說出的話音查詢的一個或多個查詢?nèi)罩荆徊⑶?/p>
其中,基于計數(shù)選擇所述查詢的真子集包括:選擇具有最高計數(shù)的查詢。
5.如權(quán)利要求1所述的方法,其中,基于計數(shù)選擇所述查詢的真子集包括:選擇具有等于或者超過最小閾值的計數(shù)的查詢,所述最小閾值大于一。
6.如權(quán)利要求1所述的方法,其中,基于計數(shù)選擇所述查詢的真子集包括:
基于第一閾值選擇具有第一詞語數(shù)量的查詢;以及
基于第二閾值選擇具有第二詞語數(shù)量的查詢,所述第二詞語數(shù)量不同于所述第一詞語數(shù)量,并且所述第二閾值不同于所述第一閾值。
7.如權(quán)利要求1所述的方法,其中,基于計數(shù)訓練語言模型的第一組件包括:針對被選查詢中的每一個被選查詢,確定指示該被選查詢作為完整查詢在訓練數(shù)據(jù)中的相對出現(xiàn)頻率的評分。
8.如權(quán)利要求1所述的方法,其中,訓練語言模型的第一組件包括:生成指示第一概率分布的數(shù)據(jù),對于所述第一概率分布,被選查詢的出現(xiàn)概率的第一總和是第一值;
其中,訓練語言模型的第二組件包括:生成指示第二概率分布的數(shù)據(jù),對于所述第二概率分布,被選查詢的出現(xiàn)概率的第二總和是第二值;并且
其中,確定調(diào)整數(shù)據(jù)包括:基于第一值和第二值來確定權(quán)重值。
9.如權(quán)利要求1所述的方法,其中,確定調(diào)整數(shù)據(jù)包括:確定要應(yīng)用于第二組件的輸出的權(quán)重值,所述權(quán)重值使第二組件的概率分布的一部分與第一組件的概率分布的相應(yīng)部分相等。
10.如權(quán)利要求1所述的方法,還包括,在從所述被選查詢中去除所述特定查詢之后,基于變更的被選查詢集合來確定第二調(diào)整數(shù)據(jù)。
11.如權(quán)利要求1所述的方法,其中,基于訓練數(shù)據(jù)訓練語言模型的第二組件包括:訓練n元詞串模型。
12.如權(quán)利要求11所述的方法,其中,訓練n元詞串模型包括:確定每個指示在給定一個或多個其它詞語的出現(xiàn)的情況下一詞語的出現(xiàn)概率的條件概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌有限責任公司,未經(jīng)谷歌有限責任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380076599.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





