[發明專利]基于語義理解的文字組織編碼算法在審

申請號：	202110176556.6	申請日：	2021-02-09
公開（公告）號：	CN112800722A	公開（公告）日：	2021-05-14
發明（設計）人：	陸曉;陳文斌;鄒志繁	申請（專利權）人：	柳州智視科技有限公司
主分類號：	G06F40/126	分類號：	G06F40/126;G06F40/30
代理公司：	柳州市榮久專利商標事務所(普通合伙) 45113	代理人：	余航
地址：	545616 廣西壯族自治區柳州市***	國省代碼：	廣西;45
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于語義理解文字組織編碼算法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

一種基于語義理解的文字組織編碼算法，包括以下步驟：（一）將文本拆分成單個字符；（二）將單個字符轉換成對應的Unicode編碼；（三）組織編碼，將相鄰字符的編碼兩兩組合，尋找有經驗的優先進行組織存儲，再與剩下的編碼一起繼續進行兩兩組合，重復尋找兩兩組合有經驗的優先進行組織，最終得到一個可能有經驗的知識編碼，用于系統保存或者關聯其它有用編碼信息。本發明用于語義理解系統里對語句的分析、理解，將文字數據化的方式，不僅傳遞方便而且還可以通過ID查詢到所有相關信息，更方便系統識別。

技術領域

本發明涉及計算機自然語言處理技術領域，特別涉及一種基于語義理解的文字組織編碼算法。

背景技術

目前對于計算機與人工智能的融合，已在多領域進行應用，最為廣泛的即NLP（Natural Language Processing，自然語言處理，是研究人與計算機交互的語言問題的一門學科），而現有技術對于傳統文本分類的處理大致分為文本預處理、文本特征提取和分類模型構建等，在對文本處理時通常通過大數據來統計，按照概率值進行分詞，或者通過提前設置好的詞典來分詞。但該處理方式還存在以下不足之處：

1．容易引起維度災難問題，語料庫太大，字典的大小為每個詞的維度，高維度導致計算困難，若每個文檔包含的詞語數少于詞典的總詞語數，則又導致文檔稀疏；

2．僅僅考慮詞語出現的次數，沒有考慮句子詞語之間的順序信息，即語義信息未考慮。

發明內容

本發明要解決的技術問題是：提供一種將文本的語義信息具體化、數據化，變為計算機可以存儲的數據信息的基于語義理解的文字組織編碼算法，以克服已有技術所存在的上述不足。

本發明采取的技術方案是：一種基于語義理解的文字組織編碼算法，包括以下步驟：

（一）拆分文本

（1）將文本拆分成段落；

（2）將段落拆分成整句；

（3）將整句拆分成子句；

（4）將子句拆分成單個字符；

（二）編碼轉換

將單個字符轉換成對應的Unicode編碼，每個字符均用16位二進制數來表示；

（三）組織編碼

（1）將相鄰字符的Unicode編碼兩兩組合；

（2）尋找有經驗的組合，優先進行組織、存儲；

（3）再與剩下的編碼一起繼續進行兩兩組合，重復尋找兩兩組合有經驗的優先進行組織；

（4）持續組織，最終得到一個可能有經驗的知識編碼，用于系統保存或者關聯其它有用編碼信息。

其進一步的技術方案是：所述步驟（二）具體包括以下步驟：

（1）將單個字符里的數字部分進行數字轉碼，即將數字保存到id1，系統標識符-數字保存到id0；

（2）將單個字符里的非數字部分進行非數字轉碼，其中窄字符（ASCII）轉換為寬字符（Unicode），獲取對應的Unicode編碼，文字則直接轉成Unicode編碼。

進一步：所述步驟（三）具體包括以下步驟：

s1．組織開始；

s2．將相鄰字符的Unicode編碼按順序兩兩組合成知識ID；

s3．判斷知識ID個數是否大于等于3，若是，進入步驟s4，若否，進入步驟s13；

s4．判斷計數器是否都小于閾值，若是，進入步驟s5，若否，進入步驟s8；

s5．判斷知識ID是否滿足固定句式條件，若是，進入步驟s6，若否，進入步驟s7；

s6．優先處理固定句式未知部分，返回步驟s2；

s7．按順序進行組合、存儲，返回步驟s2；

s8．判斷計數器是否都大于閾值，若是，進入步驟s9，若否，進入步驟s11；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于柳州智視科技有限公司，未經柳州智視科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110176556.6/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種超高時空分辨X射線成像診斷裝置
下一篇：稻瘟菌MoPTEN基因及其應用

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】