[發(fā)明專利]基于語義理解的文字組織編碼算法在審
| 申請(qǐng)?zhí)枺?/td> | 202110176556.6 | 申請(qǐng)日: | 2021-02-09 |
| 公開(公告)號(hào): | CN112800722A | 公開(公告)日: | 2021-05-14 |
| 發(fā)明(設(shè)計(jì))人: | 陸曉;陳文斌;鄒志繁 | 申請(qǐng)(專利權(quán))人: | 柳州智視科技有限公司 |
| 主分類號(hào): | G06F40/126 | 分類號(hào): | G06F40/126;G06F40/30 |
| 代理公司: | 柳州市榮久專利商標(biāo)事務(wù)所(普通合伙) 45113 | 代理人: | 余航 |
| 地址: | 545616 廣西壯族自治區(qū)柳州市*** | 國省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 語義 理解 文字 組織 編碼 算法 | ||
1.一種基于語義理解的文字組織編碼算法,其特征在于:包括以下步驟:
(一)拆分文本
(1)將文本拆分成段落;
(2)將段落拆分成整句;
(3)將整句拆分成子句;
(4)將子句拆分成單個(gè)字符;
(二)編碼轉(zhuǎn)換
將單個(gè)字符轉(zhuǎn)換成對(duì)應(yīng)的Unicode編碼,每個(gè)字符均用16位二進(jìn)制數(shù)來表示;
(三)組織編碼
(1)將相鄰字符的Unicode編碼兩兩組合;
(2)尋找有經(jīng)驗(yàn)的組合,優(yōu)先進(jìn)行組織、存儲(chǔ);
(3)再與剩下的編碼一起繼續(xù)進(jìn)行兩兩組合,重復(fù)尋找兩兩組合有經(jīng)驗(yàn)的優(yōu)先進(jìn)行組織;
(4)持續(xù)組織,最終得到一個(gè)可能有經(jīng)驗(yàn)的知識(shí)編碼,用于系統(tǒng)保存或者關(guān)聯(lián)其它有用編碼信息。
2.根據(jù)權(quán)利要求1所述的基于語義理解的文字組織編碼算法,其特征在于:所述步驟(二)具體包括以下步驟:
(1)將單個(gè)字符里的數(shù)字部分進(jìn)行數(shù)字轉(zhuǎn)碼,即將數(shù)字保存到id1,系統(tǒng)標(biāo)識(shí)符-數(shù)字保存到id0;
(2)將單個(gè)字符里的非數(shù)字部分進(jìn)行非數(shù)字轉(zhuǎn)碼,其中窄字符(ASCII)轉(zhuǎn)換為寬字符(Unicode),獲取對(duì)應(yīng)的Unicode編碼,文字則直接轉(zhuǎn)成Unicode編碼。
3.根據(jù)權(quán)利要求1所述的基于語義理解的文字組織編碼算法,其特征在于:所述步驟(三)具體包括以下步驟:
s1.組織開始;
s2.將相鄰字符的Unicode編碼按順序兩兩組合成知識(shí)ID;
s3.判斷知識(shí)ID個(gè)數(shù)是否大于等于3,若是,進(jìn)入步驟s4,若否,進(jìn)入步驟s13;
s4.判斷計(jì)數(shù)器是否都小于閾值,若是,進(jìn)入步驟s5,若否,進(jìn)入步驟s8;
s5.判斷知識(shí)ID是否滿足固定句式條件,若是,進(jìn)入步驟s6,若否,進(jìn)入步驟s7;
s6.優(yōu)先處理固定句式未知部分,返回步驟s2;
s7.按順序進(jìn)行組合、存儲(chǔ),返回步驟s2;
s8.判斷計(jì)數(shù)器是否都大于閾值,若是,進(jìn)入步驟s9,若否,進(jìn)入步驟s11;
s9.判斷知識(shí)ID是否都有抽象ID,即是否有經(jīng)驗(yàn),若是,進(jìn)入步驟s10,若否,進(jìn)入步驟s12;
s10.有抽象ID的兩種組合都嘗試進(jìn)行組織、存儲(chǔ),返回步驟s2;
s11.優(yōu)先組織計(jì)數(shù)器大的知識(shí)ID,返回步驟s2;
s12.優(yōu)先組織有抽象ID的知識(shí)ID,返回步驟s2;
s13.按順序依次進(jìn)行組織,最終組織成一個(gè)知識(shí)ID;
s14.組織結(jié)束。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于柳州智視科技有限公司,未經(jīng)柳州智視科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110176556.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





