[發明專利]一種信息處理方法及裝置有效
| 申請號: | 201610912078.X | 申請日: | 2016-10-19 |
| 公開(公告)號: | CN107967250B | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 許林;尚國強 | 申請(專利權)人: | 中興通訊股份有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/295;G06F40/253;G10L15/26 |
| 代理公司: | 北京德崇智捷知識產權代理有限公司 11467 | 代理人: | 王斌 |
| 地址: | 518057 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息處理 方法 裝置 | ||
1.一種信息處理方法,其特征在于,所述方法包括:
將接收到的非文本信息識別為文本信息;
對所述文本信息進行詞法分析,獲取組成所述文本信息的各分詞以及對應每一個分詞的屬性信息,所述屬性信息包括詞性標簽和命名實體標簽;其中,所述對所述文本信息進行詞法分析,包括:對所述文本信息進行分詞,獲取組成所述文本信息的各分詞;對所述各分詞進行詞性標注,獲取所述各分詞中每一個分詞的詞性標簽;對所述各分詞進行命名實體識別,獲取所述各分詞中每一個分詞的命名實體標簽;
對所述各分詞進行句法分析,獲取所述各分詞中每一個分詞的句法分析標簽,并簡化所述句法分析標簽;
根據所述詞性標簽、所述命名實體標簽和所述句法分析標簽,將所述各分詞劃分為能刪除分詞和不能刪除分詞;
刪除所述文本信息中所包含的所述能刪除分詞,并記錄由所述文本信息中所包含的所述不能刪除分詞所組成的新文本信息與所述非文本信息之間的關系,所述新文本信息用于供用戶對所述非文本信息中所包含的關鍵信息進行檢索和閱讀;
其中,所述將所述各分詞劃分為能刪除分詞和不能刪除分詞,包括:對于每個分詞,在采用條件隨機場算法計算所述分詞打上能刪除分詞的標簽的分數時,從特征模板中依次讀取每個模板,得到語境特征,在訓練好的模型文件中查找得到對應標簽的分數并相加;在計算所述分詞打上不能刪除分詞的標簽的分數時,從特征模板中依次讀取每個模板,得到語境特征,在訓練好的模型文件中查找得到對應標簽的分數并相加;利用維特比解碼算法求出所述文本信息最大概率下的壓縮結果,得到所述能刪除分詞和所述不能刪除分詞。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:在所述非文本信息后顯示所述新文本信息;和/或,當任意一個所述不能刪除分詞被搜索時,顯示所述新文本信息和/或所述非文本信息。
3.根據權利要求1或2所述的方法,其特征在于,所述將接收到的非文本信息識別為文本信息,包括:
通過語音識別技術將接收到的語音信息轉換為文本信息;或,
通過圖像文字識別技術將接收到的圖片信息轉換為文本信息。
4.根據權利要求1或2所述的方法,其特征在于,所述對所述文本信息進行詞法分析之前,所述方法還包括:采用正則表達式匹配所述文本信息,將匹配出的所述文本信息中所包含的不規范用語替換為規范用語。
5.一種信息處理裝置,其特征在于,所述裝置包括:第一處理單元、第二處理單元、第三處理單元、第四處理單元;其中,
所述第一處理單元,用于將接收到的非文本信息識別為文本信息;
所述第二處理單元,用于對所述文本信息進行詞法分析,獲取組成所述文本信息的各分詞以及對應每一個分詞的屬性信息,所述屬性信息包括詞性標簽和命名實體標簽;其中,所述第二處理單元,具體用于對所述文本信息進行分詞,獲取組成所述文本信息的各分詞;對所述各分詞進行詞性標注,獲取所述各分詞中每一個分詞的詞性標簽;對所述各分詞進行命名實體識別,獲取所述各分詞中每一個分詞的命名實體標簽;
所述第二處理單元,還用于對所述各分詞進行句法分析,獲取所述各分詞中每一個分詞的句法分析標簽,并簡化所述句法分析標簽;
所述第三處理單元,用于根據所述詞性標簽、所述命名實體標簽和所述句法分析標簽,將所述各分詞劃分為能刪除分詞和不能刪除分詞;
所述第四處理單元,用于刪除所述文本信息中所包含的所述能刪除分詞,并記錄由所述文本信息中所包含的所述不能刪除分詞所組成的新文本信息與所述非文本信息之間的關系,所述新文本信息用于供用戶對所述非文本信息中所包含的關鍵信息進行檢索和閱讀;
其中,所述第三處理單元,還用于對于每個分詞,在采用條件隨機場算法計算所述分詞打上能刪除分詞的標簽的分數時,從特征模板中依次讀取每個模板,得到語境特征,在訓練好的模型文件中查找得到對應標簽的分數并相加;在計算所述分詞打上不能刪除分詞的標簽的分數時,從特征模板中依次讀取每個模板,得到語境特征,在訓練好的模型文件中查找得到對應標簽的分數并相加;利用維特比解碼算法求出所述文本信息最大概率下的壓縮結果,得到所述能刪除分詞和所述不能刪除分詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司,未經中興通訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610912078.X/1.html,轉載請聲明來源鉆瓜專利網。





