[發明專利]一種中文時間識別方法、裝置及存儲介質、程序產品有效
| 申請號: | 201710912117.0 | 申請日: | 2017-09-29 |
| 公開(公告)號: | CN107729314B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 劉嘉偉 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/903;G06K9/62 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 柳欣;王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 時間 識別 方法 裝置 存儲 介質 程序 產品 | ||
1.一種中文時間識別方法,其特征在于,所述方法包括:
對待識別文本進行分詞,獲得分詞結果;
將分詞結果中的各個分詞作為待識別字符串,并將分詞后續分別添加預設個數的分詞作為待識別字符串;
將一個分詞對應的多個待識別字符串分別與用于識別時間基礎詞的正則規則進行匹配,將該分詞對應的與所述正則規則匹配的最長的待識別字符串確定為所述時間基礎詞,所述待識別字符串包括所述分詞結果中的一個分詞或者多個連續的分詞;
將獨立的所述時間基礎詞標注為所述待識別文本中的時間表達式,或者將多個滿足預設條件的所述時間基礎詞進行組合標注為所述待識別文本中的時間表達式。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
將所述時間表達式劃分為第一時間表達式、第二時間表達式或者第三時間表達式,所述第一時間表達式為包括確定時間的時間表達式、所述第二時間表達式為包括非確定時間的時間表達式,所述第三時間表達式為其他時間表達式;
將所述第二時間表達式以該第二時間表達式之前最近的第一時間表達式作為基準時間點進行時間轉換。
3.根據權利要求2所述的方法,其特征在于,所述將所述時間表達式劃分為第一時間表達式、第二時間表達式或者第三時間表達式,包括:
利用標注了確定時間、非確定時間或者其他時間的時間表達式語料訓練生成支持向量機SVM模型;
將所述時間表達式輸入所述SVM模型,以將所述時間表達式劃分為第一時間表達式、第二時間表達式或者第三時間表達式。
4.根據權利要求2所述的方法,其特征在于,所述將所述第二時間表達式以該第二時間表達式之前最近的第一時間表達式作為基準時間點進行時間轉換,包括:
通過預設的觸發詞列表在所述第二時間表達式中識別觸發詞;
從所述觸發詞列表中獲取所述觸發詞對應的時間轉換方式;
以該第二時間表達式之前最近的第一時間表達式作為基準時間點,利用所述觸發詞對應的時間轉換方式對所述第二時間表達式中的觸發詞進行轉換。
5.根據權利要求1所述的方法,其特征在于,所述對待識別文本進行分詞,獲得分詞結果,包括:
將序列標注的語料利用條件隨機場CRF算法進行訓練生成CRF模型;
將待識別文本輸入所述CRF模型進行分詞,獲得分詞結果。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取每一時間分類對應的用于識別時間基礎詞的正則規則,所述時間分類包括絕對時間、相對時間、時間段、時間頻率、模糊時間、節假日時間、朝代時間以及事件時間。
7.根據權利要求1所述的方法,其特征在于,所述將多個滿足預設條件的所述時間基礎詞進行組合標注為所述待識別文本中的時間表達式,包括:
將多個連續的所述時間基礎詞進行組合標注為所述待識別文本中的時間表達式;或者,當多個所述時間基礎詞之間僅存在結構助詞時,將多個所述時間基礎詞以及多個所述時間基礎詞之間存在的結構助詞進行組合,標注為所述待識別文本中的時間表達式。
8.一種中文時間識別裝置,其特征在于,所述裝置包括:
分詞單元,用于對待識別文本進行分詞,獲得分詞結果;
確定單元,用于將分詞結果中的各個分詞作為待識別字符串,并將分詞后續分別添加預設個數的分詞作為待識別字符串;將一個分詞對應的多個待識別字符串分別與用于識別時間基礎詞的正則規則進行匹配,將該分詞對應的與所述正則規則匹配的最長的待識別字符串確定為所述時間基礎詞,所述待識別字符串包括所述分詞結果中的一個分詞或者多個連續的分詞;
標注單元,用于將獨立的所述時間基礎詞標注為所述待識別文本中的時間表達式,或者將多個滿足預設條件的所述時間基礎詞進行組合標注為所述待識別文本中的時間表達式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710912117.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:聯名賬戶處理方法、系統及服務器
- 下一篇:一種股票信息顯示方法及裝置





