[發(fā)明專利]文本處理方法和裝置在審
| 申請?zhí)枺?/td> | 201810149309.5 | 申請日: | 2018-02-13 |
| 公開(公告)號: | CN108363693A | 公開(公告)日: | 2018-08-03 |
| 發(fā)明(設計)人: | 李陟;朱頻頻 | 申請(專利權)人: | 上海智臻智能網(wǎng)絡科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京布瑞知識產權代理有限公司 11505 | 代理人: | 孟潭 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本處理 知識點 短句 方法和裝置 答案 標準文本 方式修改 匹配成功 項目周期 匹配 文本 維護 開發(fā) | ||
1.一種文本處理方法,其特征在于,提供一個或多個知識點,每個所述知識點包括問題和答案,所述問題的內容對應標準文本內容,所述答案的內容對應文本處理方式,所述方法包括:
將待處理文本拆分成多個短句;
將每個所述短句與每個所述知識點的所述問題進行匹配;以及
當所述短句與所述知識點的所述問題匹配成功時,根據(jù)該知識點的所述答案對所述短句進行文本處理。
2.根據(jù)權利要求1所述的方法,其特征在于,所述一個或多個知識點預先存儲在一個智能分析引擎中;
其中,所述將每個所述短句與每個所述知識點的所述問題進行匹配包括:將每個所述短句輸入所述智能分析引擎,其中,所述智能分析引擎配置為將輸入的所述短句與每個所述知識點的所述問題進行匹配,并輸出所述短句的所述知識點的所述答案;
其中,所述根據(jù)該知識點的所述答案對所述短句進行文本處理包括:根據(jù)所述智能分析引擎的輸出結果對匹配所述知識點的所述問題的所述短句進行文本處理。
3.根據(jù)權利要求2所述的方法,其特征在于,所述將每個所述短句輸入所述智能分析引擎包括:將拆分得到的所述多個短句逐個輸入所述智能分析引擎;
其中,所述根據(jù)所述智能分析引擎的輸出結果對匹配所述知識點的所述問題的所述短句進行文本處理包括:對所述智能分析引擎逐個輸出的所述輸出結果對應的所述短句進行對應的文本處理。
4.根據(jù)權利要求2所述的方法,其特征在于,進一步包括:
增加或修改或刪除所述智能分析引擎中的所述知識點。
5.根據(jù)權利要求1所述的方法,其特征在于,在將每個所述短句與每個所述知識點的所述問題進行匹配之前,進一步包括:
記錄所述短句的文本格式和/或在所述待處理文本中的位置。
6.根據(jù)權利要求1所述的方法,其特征在于,所述將每個所述短句與每個所述知識點的所述問題進行匹配包括:
將每個所述短句與每個所述知識點的所述問題進行文本相似度計算,將文本相似度最大的所述知識點作為與所述短句匹配成功的所述知識點;其中,當所述短句與所述知識點的所述問題匹配成功時,根據(jù)該知識點的所述答案對所述短句進行文本處理包括:
根據(jù)該匹配成功的知識點的所述答案對所述短句進行文本處理。
7.根據(jù)權利要求1所述的方法,其特征在于,所述將待處理文本拆分成多個短句包括:
識別待處理文本中的預設拆分符;以及
將相鄰的兩個所述預設拆分符中的文本內容拆分為一個所述短句。
8.根據(jù)權利要求7所述的方法,其特征在于,所述預設拆分符包括以下幾種中的一種或多種:標點符號、換行符號和預設拆分詞。
9.根據(jù)權利要求1所述的方法,其特征在于,所述文本處理方式包括以下處理方式中的一種或多種的組合:調整文本格式、提取預設個字符前或預設個字符后的所述短句、按照預設規(guī)則整理文本內容、增加預設標注。
10.根據(jù)權利要求9所述的方法,其特征在于,所述按照預設規(guī)則整理文本內容包括:填入預設的表格、或填入預設的文字模板。
11.根據(jù)權利要求10所述的方法,其特征在于,所述文字模板采用語義表達式的形式或正則表達式的形式。
12.根據(jù)權利要求1所述的方法,其特征在于,所述待處理文本通過語音轉換過程獲取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海智臻智能網(wǎng)絡科技股份有限公司,未經上海智臻智能網(wǎng)絡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810149309.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





