[發明專利]一種文本信息的提取方法、裝置和移動終端在審
| 申請號: | 201610658626.0 | 申請日: | 2016-08-11 |
| 公開(公告)號: | CN107729310A | 公開(公告)日: | 2018-02-23 |
| 發明(設計)人: | 陳軍 | 申請(專利權)人: | 中興通訊股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京銀龍知識產權代理有限公司11243 | 代理人: | 許靜,安利霞 |
| 地址: | 518057 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 信息 提取 方法 裝置 移動 終端 | ||
技術領域
本發明涉及信息處理技術領域,特別涉及一種文本信息的提取方法、裝置和移動終端。
背景技術
目前,短信、通知消息已經成為手機終端的必備功能。在日常生活中終端會接收各類短信和通知消息,比如賬單信息、訂票信息、日程安排等等,隨著這些信息的增多,用戶檢索起來不是很方便。如果能提取這些信息中的關鍵內容并與手機的其他應用相結合,比如存放到記賬軟件、日程表等應用中,將在信息的查詢、提醒上給用戶帶來極大的便利,方便用戶的使用。
例如,對于銀行短信賬單,用戶一般通過自行提取還款日和還款金額,并存放到日程表中。如果終端能智能提取這些有用信息,并輸出到日程表中,對于終端存儲了大量短信和通知消息的情況,用戶就不必花費大量精力去查找檢索,也不容易遺忘重要的日程安排。
傳統對于關鍵信息的提取,大多采用關鍵詞模版匹配的方式。但文字消息的行文是非常靈活的,關鍵詞依賴于上下文的行文往往具有不同的含義,因此采用固定模版很難靈活、準確地提取關鍵信息。
發明內容
本發明要解決的技術問題是提供一種文本信息的提取方法、裝置和移動終端,解決現有技術中采用固定模版很難靈活、準確地提取關鍵信息的問題。
為解決上述技術問題,本發明的實施例提供一種文本信息的提取方法,包括:
識別文本信息中與預設的一個或多個符號對應的信息,并將識別出的信息用對應的符號進行替換;
在替換后的所述文本信息中,獲取與待提取信息對應的第一符號以及所述第一符號的上下文信息;
根據所述第一符號的上下文信息,判斷所述第一符號是否符合所述待提取信息的語義,若符合,則從所述文本信息中提取被所述第一符號替換的信息并輸出。
進一步來說,所述根據所述第一符號的上下文信息,判斷所述第一符號是否符合所述待提取信息的語義的步驟包括:
在預設的向量數據庫中,獲取所述第一符號對應的第一向量信息以及所述第一符號的上下文信息對應的第二向量信息;
根據所述第一向量信息以及所述第二向量信息進行加權運算,并根據運算結果,判斷所述第一符號是否符合所述待提取信息的語義。
進一步來說,所述根據所述第一向量信息以及所述第二向量信息進行加權運算,并根據運算結果,判斷所述第一符號是否符合所述待提取信息的語義的步驟包括:
根據所述第一向量信息以及所述第二向量信息,采用與預設的多種信息類型對應的權系數分別進行加權運算,得到運算結果;
根據所述運算結果,確定所述第一符號的信息類型;
判斷所述第一符號的信息類型是否與所述待提取信息的信息類型一致,若一致,則確定所述第一符號符合所述待提取信息的語義,否則,確定所述第一符號不符合所述待提取信息的語義。
進一步來說,所述根據所述第一向量信息以及所述第二向量信息,采用與預設的多種信息類型對應的權系數分別進行加權運算的步驟包括:
采用雙向長短程記憶模型神經網絡或者卷積神經網絡預先訓練出的模型,對所述第一向量信息以及所述第二向量信息進行預處理,得到組合向量;
根據所述組合向量與所述多種信息類型對應的權系數分別進行加權運算。
進一步來說,所述識別文本信息中與預設的一個或多個符號對應的信息的步驟包括:
采用正則表達式和/或關鍵詞匹配的方式,識別文本信息中與預設的一個或多個符號對應的信息。
進一步來說,所述在替換后的所述文本信息中,獲取與待提取信息對應的第一符號以及所述第一符號的上下文信息的步驟包括:
在替換后的所述文本信息中,獲取與待提取信息對應的第一符號,并獲取所述第一符號之前的第一預設數量的字符和/或所述第一符號之后的第二預設數量的字符,所述字符包括字和/或詞。
進一步來說,所述在替換后的所述文本信息中,獲取與待提取信息對應的第一符號,并獲取所述第一符號之前的第一預設數量個字和/或詞、所述第一符號之后的第二預設數量個字和/或詞之后,所述提取方法還包括:
剔除獲取到的所述第一符號之前的字符以及所述第一符號之后的字符中包含的預設無用字符,所述預設無用字符包括標點符號、語氣詞和空白符號。
進一步來說,所述在替換后的所述文本信息中,獲取與待提取信息對應的第一符號以及所述第一符號的上下文信息的步驟包括:
對替換后的所述文本信息進行分詞處理;
在分詞處理后的所述文本信息中,獲取與待提取信息對應的第一符號以及所述第一符號的上下文信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司,未經中興通訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610658626.0/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





