[發明專利]三向文本信息處理方法、計算機設備和存儲介質有效

申請號：	202010638463.6	申請日：	2020-07-06
公開（公告）號：	CN111737992B	公開（公告）日：	2020-12-22
發明（設計）人：	周贊和	申請（專利權）人：	和宇健康科技股份有限公司
主分類號：	G06F40/284	分類號：	G06F40/284;G06K9/62
代理公司：	廣州市知易知識產權代理事務所(普通合伙) 44654	代理人：	付饒;李睿
地址：	510000 廣東省廣州市天河區***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本信息處理方法計算機設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及到文本處理技術領域，揭示了一種三向文本信息處理方法、計算機設備和存儲介質，將文本信息中的普通詞匯和專業詞匯分別標注出來；將所述文本信息劃分為由多個普通句段和多個專業句段構成的第一序列；調取預設的替換句段組數據庫；將所述第一序列中的部分專業句段分別替換為對應替換句段組的短句，從而得到多個不重復的且均由普通詞匯和少量專業詞匯構成的第二序列；將所述第一序列中的所有專業句段分別替換為對應替換句段組的短句，從而得到多個不重復的且均由普通詞匯構成的第三序列；最終將文本信息處理成面向三種不同專業級別的受眾群體的三種文本信息形態，使各受眾群體都能夠理解所述文本信息，同時提高了閱讀的流暢性和效率。

技術領域

本申請涉及到文本處理技術領域，特別是涉及到一種三向文本信息處理方法、計算機設備和存儲介質。

背景技術

隨著計算機技術、網絡技術的高速發展，文本信息處理技術得到實現。某些特定領域的文本信息，因為具有很強的專業性，可能只有該領域的從業人員才能夠理解，即便具有一些該領域的專業知識的“半專業”人員，也只能理解部分，沒有該領域任何專業知識的人就可能完全難以理解了。目前的文本信息處理技術，一般是基于簡單的專業詞語替換，這種替換結果并不利于閱讀，而且對于“半專業”人員的需求造成資源浪費，效率較低。

發明內容

本申請提出一種三向文本信息處理方法，包括：

S1、將文本信息中的普通詞匯和專業詞匯分別標注出來；

S2、將所述文本信息劃分為由多個普通句段和多個專業句段構成的第一序列，其中所述普通句段不包括專業詞匯，所述專業句段包括的專業詞匯的數量大于等于一且小于等于三，并且所述專業句段至少包括五個單詞；

S3、調取預設的替換句段組數據庫，其中所述替換句段組數據庫記載了多個替換句段組，每個替換句段組由一個專業句段和多個短句構成，并且同一個替換詞語組中的專業句段和多個短句中的每一個的表意均相同；

S4、將所述第一序列中的部分專業句段分別替換為對應替換句段組的短句，從而得到多個不重復的且均由普通詞匯和少量專業詞匯構成的第二序列；

S5、根據預設的相似度計算方法，計算所述第一序列和所述第二序列之間的第二相似度，從而得到與多個第二序列分別對應的多個第二相似度值；

S6、獲取所述多個第二相似度值中的最大第二相似度值，并將所述最大第二相似度值對應的第二序列作為所述三向文本信息的第二向文本信息形態；

S7、將所述第一序列中的所有專業句段分別替換為對應替換句段組的短句，從而得到多個不重復的且均由普通詞匯構成的第三序列；

S8、根據預設的相似度計算方法，計算所述第一序列和所述第三序列之間的相似度，從而得到與所述多個不重復的且均由普通詞匯構成的第三序列分別對應的多個相似度值；

S9、獲取所述多個相似度值中的最大相似度值，并將所述最大相似度值對應的第三序列作為所述三向文本信息的第三向文本信息形態；

S10、將步驟S1中的所述文本信息記為所述三向文本信息的第一向文本信息形態。