[發明專利]一種特定詞匯的識別方法有效
| 申請號: | 201711253593.2 | 申請日: | 2017-12-04 |
| 公開(公告)號: | CN107870905B | 公開(公告)日: | 2021-09-17 |
| 發明(設計)人: | 鄭麗華;何征宇 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/211;G06F40/284;G06F40/289;G06F40/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特定 詞匯 識別 方法 | ||
1.一種待譯文件中的特定詞匯識別方法,所述特定詞匯包含至少一個拉丁字母,所述識別方法對所述待譯文件進行切分,識別出其中的名詞;
其特征在于:所述方法包括如下步驟:
將所述識別出的所有名詞按照其在所述待譯文件中的位置順序存儲在一個有序列表中;
依次讀取所述有序列表中的名詞,對該名詞進行語義分析,以確定該名詞是否屬于特定詞匯;
對該名詞進行語義分析以確定該名詞是否屬于特定詞匯,具體包括:
對該名詞以字節為單位進行切分得到多個特征字段;
如果所述多個特征字段中的至少一個滿足預定條件,則確定該名詞屬于特定詞匯;
對該名詞以字節為單位進行切分得到的多個特征字段,由如下多個字段的其中之一或者多個組成:拉丁字母,空格,附加符號,連接符;
所述滿足預定條件,是指至少滿足如下條件之一:
所述多個特征字段包含多個拉丁字母,同時包含連接符;
所述多個特征字段包含多個拉丁字母以及至少一個附加符號,所述附加符號位于至少一個拉丁字母的上部或者右上角;
如果所述多個特征字段均不滿足所述預定條件,則繼續如下識別步驟:
(41)判斷所述多個特征字段是否包含空格;
(42)如果不包含空格,則判斷所述多個特征字段組成的字符是否滿足漢語拼音方案;如果不滿足,則確定該名詞屬于特定詞匯;
(43)如果包含空格,則判斷該空格前后的特征字段組成的兩個字符中是否至少一個不滿足漢語拼音方案,如果是,則確定該名詞屬于特定詞匯。
2.如權利要求1所述的方法,其特征在于:
將所述識別出的所有名詞按照其在所述待譯文件中的位置順序存儲在一個有序列表中,還包括預處理步驟:判斷所述名詞是否包含拉丁字母,如果不包含,則該名詞無需存儲。
3.如權利要求2所述的方法,其特征在于:
判斷所述名詞是否包含拉丁字母;如果包含,則繼續判斷該名詞是否符合漢語拼音方案,如果符合漢語拼音方案,則該名詞無需存儲。
4.一種特定詞匯識別系統,用于識別待譯文件中的特定詞匯,所述特定詞匯包含至少一個拉丁字母;
所述系統包括如下模塊:
識別模塊,對所述待譯文件進行切分,識別并輸出其中的名詞;
預處理模塊,對切分模塊輸出的名詞進行預處理;所述預處理包括:判斷該名詞是否包含拉丁字母;以及判斷該名詞是否符合漢語拼音方案;
存儲模塊,將經過預處理模塊處理后的名詞按照其在所述待譯文件中的位置順序存儲在一個有序列表中;
語義分析模塊,依次讀取所述有序列表中的名詞,對該名詞進行語義分析,以確定該名詞是否屬于特定詞匯;
其特征在于,所述語義分析模塊包括字節切分模塊,判斷模塊和結果輸出模塊,所述字節切分模塊對該名詞以字節為單位進行切分得到多個特征字段;
所述判斷模塊,判斷所述多個特征字段中的至少一個是否滿足預定條件;
所述結果輸出模塊根據所述判斷模塊輸出詞匯的識別結果;
所述字節切分模塊,對該名詞以字節為單位進行切分得到的多個特征字段,由如下多個字段的其中之一或者多個組成:拉丁字母,空格,附加符號,連接符;所述滿足預定條件,是指至少滿足如下條件之一:
所述多個特征字段包含多個拉丁字母,同時包含連接符;
所述多個特征字段包含多個拉丁字母以及至少一個附加符號,所述附加符號位于至少一個拉丁字母的上部或者右上角;
如果所述多個特征字段均不滿足所述預定條件,則繼續如下識別步驟:
(41)判斷所述多個特征字段是否包含空格;
(42)如果不包含空格,則判斷所述多個特征字段組成的字符是否滿足漢語拼音方案;如果不滿足,則確定該名詞屬于特定詞匯;
(43)如果包含空格,則判斷該空格前后的特征字段組成的兩個字符中是否至少一個不滿足漢語拼音方案,如果是,則確定該名詞屬于特定詞匯。
5.一種計算機可讀存儲介質,其上存儲有計算機可讀存儲指令,通過存儲器和處理器執行所述指令,用于實現權利要求1-3任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711253593.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:砼泵軟管生產線增強層纏繞系統
- 下一篇:反饋式3D打印機





