[發明專利]三向文本信息處理方法、計算機設備和存儲介質有效
| 申請號: | 202010638463.6 | 申請日: | 2020-07-06 |
| 公開(公告)號: | CN111737992B | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 周贊和 | 申請(專利權)人: | 和宇健康科技股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06K9/62 |
| 代理公司: | 廣州市知易知識產權代理事務所(普通合伙) 44654 | 代理人: | 付饒;李睿 |
| 地址: | 510000 廣東省廣州市天河區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 信息處理 方法 計算機 設備 存儲 介質 | ||
1.一種三向文本信息處理方法,其特征在于,所述方法包括:
S1、將文本信息中的普通詞匯和專業詞匯分別標注出來;
S2、將所述文本信息劃分為由多個普通句段和多個專業句段構成的第一序列,其中所述普通句段不包括專業詞匯,所述專業句段包括的專業詞匯的數量大于等于一且小于等于三,并且所述專業句段至少包括五個單詞;
S3、調取預設的替換句段組數據庫,其中所述替換句段組數據庫記載了多個替換句段組,每個替換句段組由一個專業句段和多個短句構成,并且同一個替換詞語組中的專業句段和多個短句中的每一個的表意均相同;
S4、將所述第一序列中的部分專業句段分別替換為對應替換句段組的短句,從而得到多個不重復的且均由普通詞匯和少量專業詞匯構成的第二序列;
S5、根據預設的相似度計算方法,計算所述第一序列和所述第二序列之間的第二相似度,從而得到與多個第二序列分別對應的多個第二相似度值;
S6、獲取所述多個第二相似度值中的最大第二相似度值,并將所述最大第二相似度值對應的第二序列作為所述三向文本信息的第二向文本信息形態;
S7、將所述第一序列中的所有專業句段分別替換為對應替換句段組的短句,從而得到多個不重復的且均由普通詞匯構成的第三序列;
S8、根據預設的相似度計算方法,計算所述第一序列和所述第三序列之間的相似度,從而得到與所述多個不重復的且均由普通詞匯構成的第三序列分別對應的多個相似度值;
S9、獲取所述多個相似度值中的最大相似度值,并將所述最大相似度值對應的第三序列作為所述三向文本信息的第三向文本信息形態;
S10、將步驟S1中的所述文本信息記為所述三向文本信息的第一向文本信息形態。
2.根據權利要求1所述的三向文本信息處理方法,其特征在于,還包括:
S11、接收終端發送的查詢文本信息的請求;
S12、判斷所述終端是否為第一受眾群體終端、第二受眾群體終端和第三受眾群體終端之一;
S13、若所述終端為第一受眾群體終端,將呈第一向文本信息形態的所述三向文本信息發送給所述第一受眾群體終端;
S14、若所述終端為第二受眾群體終端,將呈第二向文本信息形態的所述三向文本信息發送給所述第二受眾群體終端;
S15、若所述終端為第三受眾群體終端,將呈第三向文本信息形態的所述三向文本信息發送給所述第三受眾群體終端。
3.根據權利要求1所述的三向文本信息處理方法,其特征在于,所述將所述第一序列中的部分專業句段分別替換為對應替換句段組的短句,從而得到多個不重復的且均由普通詞匯和少量專業詞匯構成的第二序列的步驟S4,包括:
S41、對預設的文本信息庫中的所有文本信息進行專業詞匯升序排序,從而得到專業詞匯升序表;
S42、獲取所述第一序列中的專業詞匯在所述專業詞匯升序表中的排名;
S43、根據所述第一序列中的專業詞匯在所述專業詞匯升序表中的排名,進行二次升序排序,以得到所述第一序列中的專業詞匯的二次升序表;
S44、將所述二次升序表中排名大于預設數值的專業詞匯記為待替換詞匯,并將所述第一序列中的部分專業句段分別替換為對應替換句段組的短句,從而得到多個不重復的且均由普通詞匯和少量專業詞匯構成的第二序列;其中每個部分專業句段中均包括至少一個所述待替換詞匯。
4.根據權利要求1所述的三向文本信息處理方法,其特征在于,所述根據預設的相似度計算方法,計算所述第一序列和所述第三序列之間的相似度的步驟S8,包括:
S81、根據預設的向量映射方法,將所述第一序列和所述第三序列分別映射為第一篇向量和第二篇向量;
S82、根據公式:
,計算出第一篇向量和第二篇向量之間的相似度Z;其中,P為第一篇向量,Pi為第一篇向量的第i個分向量數值,T為第二篇向量,Ti為第二篇向量的第i個分向量數值,第一篇向量和第二篇向量均有n個分向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于和宇健康科技股份有限公司,未經和宇健康科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010638463.6/1.html,轉載請聲明來源鉆瓜專利網。





