[發明專利]一種泰語文本切詞方法及裝置有效
| 申請號: | 201210074880.8 | 申請日: | 2012-03-20 |
| 公開(公告)號: | CN103324607B | 公開(公告)日: | 2016-11-23 |
| 發明(設計)人: | 何徑舟;張超 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 泰語 文本 方法 裝置 | ||
1.一種泰語文本切詞方法,其特征在于,包括:
利用詞典匹配算法,對待切分文本串進行切分;
在存在匹配不成功部分的情況下,利用預置的音節合并模板,將匹配不成功部分的字符合并為音節;
利用匹配成功部分與合并得到的音節,構成第一切詞結果。
2.根據權利要求1所述的方法,其特征在于,該方法還包括:
以音節為單位,對匹配成功部分進行音節切分;
根據預置的基于音節的泰語切詞模型,對音節切分結果和合并得到的音節進行組合,得到第二切詞結果。
3.根據權利要求2所述的方法,其特征在于,所述以音節為單位,對匹配成功部分進行音節切分,包括:
根據預置的詞典詞音節切分信息,對匹配成功的詞典詞進行音節切分。
4.根據權利要求3所述的方法,其特征在于,所述音節切分信息的獲得方法,包括:
根據泰語字符在泰語音節中的位置及字符類型,對泰語語料進行標注,得到字符訓練語料;
根據字符訓練語料,訓練得到音節切分模型;
利用所述音節切分模型對詞典詞進行切分,得到詞典詞的音節切分信息。
5.根據權利要求4所述的方法,其特征在于,所述泰語字符在泰語音節中的位置,包括:
位于開頭、位于中間、和位于結尾。
6.根據權利要求4所述的方法,其特征在于,所述泰語字符的類型包括:
可做開頭的輔音、一般輔音、前元音、上元音、下元音、尾元音、和聲調。
7.根據權利要求2所述的方法,其特征在于,所述基于音節的泰語切詞模型的建立方法,包括:
根據泰語音節在泰語單詞中的位置,對泰語語料進行標注,得到音節訓練語料;
根據音節訓練語料,訓練得到基于音節的泰語切詞模型。
8.根據權利要求7所述的方法,其特征在于,還包括:
利用讀音泛化算法,對所述泰語音節進行泛化,并在模型中添加讀音泛化標識。
9.根據權利要求7或8所述的方法,其特征在于,所述泰語音節在泰語句子中的位置,包括:
位于開頭、位于中間、位于結尾,和單獨成詞。
10.根據權利要求2所述的方法,其特征在于,還包括:
對第二切詞結果中非詞典詞的出現頻率進行統計,如果超過預設的閾值,則將該非詞典詞錄入詞典。
11.一種泰語文本切詞裝置,其特征在于,包括:
詞典切分單元,用于利用詞典匹配算法,對待切分文本串進行切分;
音節合并單元,用于在存在匹配不成功部分的情況下,利用預置的音節合并模板,將匹配不成功部分的字符合并為音節;
第一輸出單元,用于利用匹配成功部分與合并得到的音節,構成第一切詞結果。
12.根據權利要求11所述的裝置,其特征在于,該裝置還包括:
音節切分單元,用于以音節為單位,對匹配成功部分進行音節切分;
模型切詞單元,用于根據預置的基于音節的泰語切詞模型,對音節切分結果和合并得到的音節進行組合,得到第二切詞結果。
13.根據權利要求12所述的方法裝置,其特征在于,所述音節切分單元,具體用于:
根據預置的詞典詞音節切分信息,對匹配成功的詞典詞進行音節切分。
14.根據權利要求13所述的裝置,其特征在于,所述裝置還包括:
音節切分信息獲得單元,用于獲得詞典詞的音節切分信息,該單元包括:
字符標注子單元,用于根據泰語字符在泰語音節中的位置及字符類型,對泰語語料進行標注,得到字符訓練語料;
音節切分模型訓練子單元,用于根據字符訓練語料,訓練得到音節切分模型;
音節切分子單元,利用所述音節切分模型對詞典詞進行切分,得到詞典詞的音節切分信息。
15.根據權利要求14所述的裝置,其特征在于,所述泰語字符在泰語音節中的位置,包括:
位于開頭、位于中間、和位于結尾。
16.根據權利要求14所述的裝置,其特征在于,所述泰語字符的類型包括:
可做開頭的輔音、一般輔音、前元音、上元音、下元音、尾元音、和聲調。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210074880.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:新型線材整理板
- 下一篇:一種基于x86體系結構處理器的VME單板計算機裝置





