[發明專利]一種計算機拆分漢語句子的方法有效
| 申請號: | 201410818409.4 | 申請日: | 2014-12-25 |
| 公開(公告)號: | CN104598441B | 公開(公告)日: | 2019-06-28 |
| 發明(設計)人: | 牟孝金;洪紫洲;李維良 | 申請(專利權)人: | 上海科閱信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海宏京知識產權代理事務所(普通合伙) 31297 | 代理人: | 鄧文武 |
| 地址: | 200233 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 句子 漢語 基礎數據庫 分類處理 詞庫 詞性 化學元素分析 計算機軟件 單個漢字 基礎保證 句子分析 匹配比對 順序原則 優先原則 重新組合 短語 計算機 運算量 組詞 數據庫 漢字 分析 | ||
1.一種計算機拆分漢語句子的方法,其特征在于,其包括以下步驟:
步驟S1,建立基礎數據庫;所述基礎數據庫包括基礎詞庫和可以判斷單個漢字之間相互組合成詞的優先順序原則的漢字組詞優先原則判斷數據庫;
步驟S2,將需要被拆分的漢語句子與步驟S1中建立的基礎詞庫進行匹配比對,將需要被拆分的漢語句子拆分成詞,具體的拆分過程為:步驟S21,首先,依次使用基礎詞庫中尺度為9至1的漢字詞遍歷需要被拆分的漢語句子;步驟S22,將上述需要被拆分的漢語句子中遍歷出來的漢字詞的首個漢字和最后一個漢字分別運用漢字組詞優先原則判斷數據庫進行判斷對比;該判斷對比的過程為:如果該漢字詞的首個漢字與在需要被拆分漢語句子中位于其后的組詞能力強于該漢字詞的首個漢字與在需要被拆分漢語句子中位于其前的組詞能力,且該漢字詞的最后一個漢字與在需要被拆分漢語句子中位于其后的組詞能力弱于該漢字詞的最后一個漢字與在需要被拆分漢語句子中位于其前的組詞能力,則認為該次匹配正確;如果該漢字詞的首個漢字與在需要被拆分漢語句子中位于其后的組詞能力弱于該漢字詞的首個漢字與在需要被拆分漢語句子中位于其前的組詞能力,或者該漢字詞的最后一個漢字與在需要被拆分漢語句子中位于其后的組詞能力強于該漢字詞的最后一個漢字與在需要被拆分漢語句子中位于其前的組詞能力,則認為該次匹配不正確,同時將匹配不正確的漢字詞拆開重新遍歷基礎詞庫直至所有的拆分出來的漢字詞都判斷為匹配正確;
步驟S3,將步驟S2中拆分得到的詞進行詞性分類處理:將拆分得到的詞分別分為漢字詞、英文字母串、數字串和其它符號串;所述漢字詞分類處理為中心詞、前修飾詞、后修飾詞;所述中心詞分為名詞、動詞和數詞;前修飾詞分為名詞前修飾詞和動詞前修飾詞;后修飾詞分為名詞后修飾詞、動詞后修飾詞和量詞;
步驟S4,對經過詞性分類處理后的詞進行重新組合,形成漢語短語,重新組合的過程為:將英文字母串和其它符號串組合成獨立的漢語短語;數字串組合成漢字詞中的數詞;并且將中心詞分類組合成名詞短語、動詞短語和數詞短語;即完成對被拆漢語句子的拆分。
2.根據權利要求1所述的一種計算機拆分漢語句子的方法,其特征在于,所述步驟S1中建立的基礎詞庫包括漢字詞、英文字母、數字和其它漢語語句中使用的通用字符。
3.根據權利要求2所述的一種計算機拆分漢語句子的方法,其特征在于,所述基礎詞庫中的漢字詞包括日常用語、詩詞、網絡常用詞和特殊名稱用詞。
4.根據權利要求3所述的一種計算機拆分漢語句子的方法,其特征在于,所述基礎詞庫存儲在計算機內的代碼為unicode編碼或者漢字國際GB碼。
5.根據權利要求4所述的一種計算機拆分漢語句子的方法,其特征在于,所述漢字組詞優先原則判斷數據庫是根據日常生活中漢字的實際使用頻率和使用慣例通過窮舉法進行歸納總結而得出的優先組合詞組。
6.根據權利要求5所述的一種計算機拆分漢語句子的方法,其特征在于,所述步驟S1中建立的基礎詞庫中詞的尺度范圍為1至9;其中基礎詞庫中漢字詞的尺度定義為漢字詞中漢字的個數,英文字母的尺度定義為1,數字的尺度定義為1,其它漢語語句中使用的通用字符也定義為1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海科閱信息技術有限公司,未經上海科閱信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410818409.4/1.html,轉載請聲明來源鉆瓜專利網。





