[發明專利]一種文本處理方法及裝置有效
| 申請號: | 201710258679.8 | 申請日: | 2017-04-19 |
| 公開(公告)號: | CN107329964B | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 王凱;毛仁歆 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F16/332;G06F40/289 |
| 代理公司: | 北京晉德允升知識產權代理有限公司 11623 | 代理人: | 吳紹群 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 處理 方法 裝置 | ||
1.一種文本處理方法,其特征在于,包括:
對用戶輸入的搜索文本進行分割,生成分割文本;
根據預先建立的自定義文本庫,對所述分割文本進行文本校正,生成校正文本,具體包括:按照多個分割文本的排列順序,選定起始分割文本;以所述起始分割文本為準,依次選定排列在該起始分割文本之后的相鄰分割文本進行累計拼接,直到生成的拼接文本滿足設定條件;在所述自定義文本庫中查找與所述拼接文本相匹配的文本,根據查找結果,生成校正文本;其中,所述設定條件包括:所述拼接文本全部命中所述自定義文本庫中的文本,和/或所述自定義文本庫中未包含所述拼接文本;所述選定起始分割文本,具體包括:按照所述多個分割文本的排列順序,選定首個分割文本作為起始分割文本,或當生成的所述拼接文本滿足設定條件時,選定該拼接文本的后一相鄰分割文本作為起始分割文本;
在預先建立的同義文本庫中,確定所述校正文本所對應的目標同義文本;
組合所述目標同義文本,生成對應于所述搜索文本的同義搜索文本;
其中,所述自定義文本庫及同義文本庫中的文本,至少包括短語。
2.如權利要求1所述的方法,其特征在于,預先建立自定義文本庫,具體包括:
獲取已建立的同義文本庫中的各同義文本,和/或未存儲至所述同義文本庫中的自定義文本;
根據獲取到的所述同義文本,建立所述自定義文本庫。
3.如權利要求1所述的方法,其特征在于,對所述分割文本進行文本校正,生成校正文本,具體包括:
選定分割文本進行拼接,生成拼接文本;
針對生成的每一拼接文本,在所述自定義文本庫中查找與所述拼接文本相匹配的文本;
根據查找結果,生成校正文本。
4.如權利要求3所述的方法,其特征在于,選定分割文本進行拼接,具體包括:
按照多個分割文本的排列順序,從前至后依次選定相鄰的分割文本進行拼接;
其中,所述多個分割文本的排列順序,與所述搜索文本中的文本排列順序一致。
5.如權利要求1所述的方法,其特征在于,根據查找結果,生成校正文本,具體包括:
當在所述自定義文本庫中查找到與所述拼接文本一致的文本時,將所述拼接文本確定為校正文本;
當所述拼接文本與所述自定義文本庫中的文本前綴一致時,根據該拼接文本及后續分割文本,確定校正文本;
當在所述自定義文本庫中未查找到與所述拼接文本一致的文本時,將與該拼接文本對應的起始分割文本確定為校正文本。
6.如權利要求1所述的方法,其特征在于,在預先建立的同義文本庫中,確定所述校正文本所對應的目標同義文本,具體包括:
針對每一校正文本,在所述同義文本庫中,確定該校正文本所匹配的同義文本;
確定該同義文本所屬的同義文本集;
在所述同義文本集中,選擇攜帶有目標文本標識的同義文本,作為與所述校正文本對應的目標同義文本。
7.如權利要求1所述的方法,其特征在于,在預先建立的同義文本庫中,確定所述校正文本所對應的目標同義文本,具體包括:
針對每一校正文本,若未在所述同義文本庫中查找到匹配的同義文本,則將該校正文本確定為自身的目標同義文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710258679.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙組元液體推進劑液面高度測控裝置
- 下一篇:機器數據存儲方法及系統





