[發明專利]在線自動挖掘新詞的方法及電子裝置有效
| 申請號: | 201210525387.3 | 申請日: | 2012-12-10 |
| 公開(公告)號: | CN103870449B | 公開(公告)日: | 2018-06-12 |
| 發明(設計)人: | 吳先超 | 申請(專利權)人: | 百度國際科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 倪志華 |
| 地址: | 518057 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 候選項 挖掘 集合 電子裝置 語言形式 相似度算法 字符串組合 輸入需求 對齊 語料 加權 計算機 概率 | ||
1.一種在線自動挖掘新詞的方法,其特征在于,包括:
獲取語料中的具有預設字符串形式的候選項集合;
根據已建立的具有預設語言形式組合的詞對齊模型,獲取所述候選項集合中候選項所對應的部分字符的概率;
判斷所述候選項集合中候選項所對應的部分字符的概率是否達到第二閾值,若達到所述第二閾值,則所述候選項集合中候選項即為挖掘到的新詞;
獲取語料中的候選項集合的步驟包括:
從所述語料中收集具有預設形式的第一字符串組合,并獲取其中的候選項,所述候選項是預設形式的第一字符串組合中的第一字符串,所述第一字符串組合包括所述第一字符串和第二字符串,其中,所述第一字符串在所述第二字符串的前面且緊鄰所述第二字符串;
通過相似度算法,獲得候選項集合,所述候選項集合是通過所述相似度算法得到的相似度得分達到第一閾值的候選項的集合;
通過相似度算法,獲得候選項集合,所述候選項集合是通過所述相似度算法得到的相似度得分達到第一閾值的候選項的集合。
2.根據權利要求1所述的方法,其特征在于:
所述根據已建立的具有預設語言形式組合的詞對齊模型,獲取所述候選項集合中候選項所對應的部分字符的概率的步驟包括:
根據已建立的第一語言形式和第二語言形式組合的詞對齊模型,獲取所述候選項集合中候選項所對應的第一字符串組合的概率,所述第一語言形式以第一字符表示,所述第二語言形式以第二字符表示;
所述判斷所述候選項集合中候選項所對應的部分字符的概率是否達到第二閾值的步驟包括:
判斷所述候選項集合中候選項的加權得分是否達到第二閾值,其中,所述候選項集合中候選項的加權得分是根據所述候選項集合中候選項的相似度得分和所述候選項集合中候選項所對應的第一字符串組合的概率進行加權相加獲得的。
3.根據權利要求2所述的方法,其特征在于,所述根據已建立的第一語言形式和第二語言形式組合的詞對齊模型,獲取所述候選項集合中候選項所對應的第一字符串組合的概率的步驟之前,包括:
根據已有的第一語言形式和第二語言形式組合的詞典,通過最大期望算法建立第一語言形式和第二語言形式組合的詞對齊模型。
4.根據權利要求3所述的方法,其特征在于,所述第一語言形式和第二語言形式組合的詞對齊模型是從左向右,按照所述第一字符對照一個或多個所述第二字符的方式進行對齊。
5.根據權利要求2所述的方法,其特征在于,所述通過相似度算法,獲得第一候選項集合,所述第一候選項集合是通過所述相似度算法得到的相似度得分達到第一閾值的候選項的集合的步驟,包括:
通過相似度算法,獲得每個所述候選項的相似度得分,其中,所述候選項的相似度得分是:
LH(c)=freq(c)-E[freq(c)],
所述c為所述候選項,所述freq(c)是所述c出現在所述第二字符串前面的頻次,所述E[freq(c)]是所述freq(c)的數學期望;
根據所述每個候選項的相似度得分,確定所述相似度得分達到所述第一閾值的候選項,所述相似度得分達到所述第一閾值的候選項的集合即為所述第一候選項集合。
6.根據權利要求5所述的方法,其特征在于,所述freq(c)的數學期望是:
所述c為所述候選項,所述Tc是包含所述c、且比所述c多一個字符的候選項t的集合,所述freq(t)是所述t出現在所述第二字符串前面的頻次。
7.根據權利要求1至6任一項所述的方法,其特征在于,所述第一字符串和所述第二字符串分別是漢字和假名。
8.根據權利要求1至6任一項所述的方法,其特征在于,所述第一字符串和所述第二字符串分別是一種語言的單詞和與所述語言的單詞對應的另一種語言的單詞。
9.根據權利要求2至6任一項所述的方法,其特征在于,所述預設形式是表征所述第一字符串組合的形式,所述第一字符串組合包括所述第一字符串并后緊跟括號內的所述第二字符串。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度國際科技(深圳)有限公司,未經百度國際科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210525387.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電動車及其減速箱
- 下一篇:一種對輸入法所產生的候選項進行排序的方法及裝置





