[發(fā)明專利]多語混合文本的分句方法和裝置有效
| 申請?zhí)枺?/td> | 201310544947.4 | 申請日: | 2013-11-06 |
| 公開(公告)號: | CN103559172A | 公開(公告)日: | 2014-02-05 |
| 發(fā)明(設(shè)計)人: | 吳禮文;劉紅雨;何中軍;吳華 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/28 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 混合 文本 分句 方法 裝置 | ||
1.一種多語混合文本的分句方法,其特征在于,包括以下步驟:
獲取多語混合文本,并獲取所述多語混合文本的字符編碼;
根據(jù)所述字符編碼確定所述多語混合文本的第一類分割點;以及
根據(jù)所述第一類分割點將所述多語混合文本分割為多個分句。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)字符編碼確定所述多語混合文本的第一類分割點具體包括:
根據(jù)所述字符編碼獲取所述多語言混合文本中字符對應(yīng)的多個語言編碼范圍;
根據(jù)所述多個語言編碼范圍確定所述多語言混合文本的語言混合類型;以及
根據(jù)所述語言混合類型確定所述第一類分割點。
3.如權(quán)利要求2所述的方法,其特征在于,在所述獲取多語混合文本的字符編碼之后,還包括:
根據(jù)所述字符編碼獲取所述多語混合文本中的標(biāo)點;
根據(jù)所述標(biāo)點確定所述多語混合文本的第二類分割點,以根據(jù)所述第一類分割點和第二類分割點將所述多語混合文本分割為多個分句。
4.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)每個字符對應(yīng)的語言編碼范圍確定所述多語言混合文本的語言混合類型具體包括:
如果所述多個語言編碼范圍中任意兩個語言編碼范圍不具有重疊范圍,則確定所述多語言混合文本的語言混合類型為第一類混合類型;
如果所述多個語言編碼范圍中存在兩個語言編碼范圍具有重疊范圍,并且所述多語混合文本中的字詞之間的空格數(shù)量滿足第一預(yù)設(shè)要求,則確定所述多語言混合文本的語言混合類型為第二類混合類型;
如果所述多個語言編碼范圍中存在兩個語言編碼范圍具有重疊范圍,并且所述多語混合文本中的字詞之間的空格數(shù)量滿足第二預(yù)設(shè)要求,則確定所述多語言混合文本的語言混合類型為第三類混合類型。
5.如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)語言混合類型確定所述第一類分割點具體包括:
如果所述語言混合類型為第一類混合類型,則獲取所述多語混合文本中分別對應(yīng)不同語言編碼范圍的相鄰兩個字符,并在所述相鄰兩個字符之間插入所述第一類分割點。
6.如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)語言混合類型確定所述第一類分割點具體包括:
如果所述語言混合類型為第二類語言混合類型,則獲取所述多語混合文本中的空格,并在所述空格處插入所述第一類分割點。
7.如權(quán)利要求4所述的方法,其特征在于,所述第三類語言混合類型包括第一語言類型和第二語言類型,所述根據(jù)語言混合類型確定所述第一類分割點具體包括:
如果所述語言混合類型為第三類語言混合類型,則進(jìn)一步判斷相鄰兩個第二類分割點之間的第一文本片段中是否存在與所述第一語言類型和第二語言類型分別對應(yīng)的第一特征詞匯和第二特征詞匯;
如果存在與所述第一語言類型和第二語言類型分別對應(yīng)的第一特征詞匯和第二特征詞匯,則獲取所述第一特征詞匯和所述第二特征詞匯之間的第二文本片段;以及
根據(jù)與所述第一語言類型和第二語言類型分別對應(yīng)的語言模型,在所述第二文本片段中確定所述第一類分割點。
8.如權(quán)利要求7所述的方法,其特征在于,所述根據(jù)與所述第一語言類型和第二語言類型分別對應(yīng)的語言模型,在所述第二文本片段中確定所述第一類分割點具體包括:
獲取所述第二文本片段中的空格個數(shù);以及
如果所述第二文本片段中只存在一個空格,則在所述一個空格出插入所述第一類分割點。
9.如權(quán)利要求8所述的方法,其特征在于,所述根據(jù)與所述第一語言類型和第二語言類型分別對應(yīng)的語言模型,在所述第二文本片段中確定所述第一類分割點具體包括:
如果所述第二文本片段中存在多個空格,則根據(jù)所述第一語言類型和第二語言類型的語言模型分別計算所述多個空格的第一模型概率值和第二模型概率值;以及
在所述第一模型概率值和所述第二模型概率值之和最大的空格處插入所述第一類分割點。
10.一種多語混合文本的分句裝置,其特征在于,包括:
第一獲取模塊,用于獲取多語混合文本,并獲取所述多語混合文本的字符編碼;
第一確定模塊,用于根據(jù)所述字符編碼確定所述多語混合文本的第一類分割點;以及分割模塊,用于根據(jù)所述第一類分割點將所述多語混合文本分割為多個分句。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310544947.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





