[發明專利]使用經縮放的概率分割詞有效
| 申請號: | 201610096239.2 | 申請日: | 2009-04-09 |
| 公開(公告)號: | CN105786796B | 公開(公告)日: | 2019-02-22 |
| 發明(設計)人: | 馬克·戴維斯 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/903 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;安翔 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 縮放 概率 分割 | ||
1.一種用于將符號分割成詞的方法,包括:
接收n-gram標識詞的概率;
確定相應n-gram中的原子單元的數目;
根據所述n-gram中的原子單元的所述數目來標識縮放權重;
將所述縮放權重應用于所述n-gram標識詞的所述概率來確定所述n-gram標識詞的經縮放的概率,以及
使用相應符號的所述經縮放的概率來將多個符號分割成詞。
2.如權利要求1所述的方法,其中所述n-gram標識詞的所述經縮放的概率取決于所述n-gram中的原子單元的所述數目。
3.如權利要求1所述的方法,其中所述n-gram標識詞的所述經縮放的概率是xn,其中x是所述n-gram標識詞的所述概率,以及n是所述n-gram中的原子單元的所述數目。
4.如權利要求1所述的方法,其中所述n-gram標識詞的所述經縮放的概率是x1+k(n-1),其中x是所述n-gram標識詞的所述概率,n是所述n-gram中的原子單元的所述數目,以及k是常量并且0≤k≤1。
5.如權利要求1所述的方法,進一步包括:
標識較少級的n-gram,所述較少級的n-gram從所述n-gram取得;
接收與所述較少級的n-gram中的每一個相對應的標識詞的概率;
將所述n-gram標識詞的所述概率與所述較少級的n-gram的組合標識詞的所述概率進行比較;以及
當較少級的n-gram的組合標識詞的概率與所述n-gram標識詞的所述概率相差指定閾值量時,修改與所述n-gram標識詞的所述概率相對應的所述縮放權重。
6.如權利要求1所述的方法,進一步包括:
接收n-gram標識詞的經縮放的概率;
確定較少級的n-gram標識詞的經縮放的概率,所述較少級的n-gram從所述n-gram取得;以及
當較少級的n-gram的組合標識詞的經縮放的概率與所述n-gram標識詞的所述經縮放的概率相差指定閾值量時,從字典移除所述n-gram。
7.一種用于將符號分割成詞的系統,包括:
字典,所述字典包括n-gram和每一個n-gram標識詞的相應概率;
縮放引擎,所述縮放引擎包括對應于每一個n-gram的縮放權重,所述縮放權重取決于在每一個n-gram中的原子單元的數目;
每一個n-gram標識詞的經縮放的概率,其中確定每一個n-gram標識詞的所述經縮放的概率包括將縮放權重應用于每一個n-gram標識詞的相應概率;以及
分割器,所述分割器接收多個符號以及使用所述經縮放的概率來將所述多個符號分割成詞。
8.如權利要求7所述的系統,其中所述n-gram標識詞的所述經縮放的概率取決于所述n-gram中的原子單元的所述數目。
9.如權利要求7所述的系統,其中所述n-gram標識詞的所述經縮放的概率是xn,其中x是所述n-gram標識詞的所述概率,以及n是所述n-gram中的原子單元的所述數目。
10.如權利要求7所述的系統,其中所述n-gram標識詞的所述經縮放的概率是x1+k(n-1),其中x是所述n-gram標識詞的所述概率,n是所述n-gram中的原子單元的所述數目,以及k是常量并且0≤k≤1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610096239.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:類目映射關系的建立方法與裝置
- 下一篇:一種問答對檢索方法及社區問答檢索系統





