[發(fā)明專利]基于NLP和企業(yè)信息的智能造詞方法在審
| 申請?zhí)枺?/td> | 201811278241.7 | 申請日: | 2018-10-30 |
| 公開(公告)號: | CN109471926A | 公開(公告)日: | 2019-03-15 |
| 發(fā)明(設(shè)計)人: | 林正春;姜允志;王靜 | 申請(專利權(quán))人: | 廣東原昇信息科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36 |
| 代理公司: | 北京鼎承知識產(chǎn)權(quán)代理有限公司 11551 | 代理人: | 李偉波;韓德凱 |
| 地址: | 510000 廣東省廣州市番禺區(qū)小谷圍*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 匹配函數(shù) 文本元素 智能造詞 詞組 關(guān)聯(lián)度 匹配 建立數(shù)據(jù)庫 企業(yè)信息 實(shí)時更新 統(tǒng)計表 使用狀態(tài)監(jiān)控 準(zhǔn)確度 監(jiān)控反饋 使用頻率 成正比 中文 保留 篩選 | ||
本公開提供了一種基于NLP和企業(yè)信息的智能造詞方法,包括以下步驟:A、建立數(shù)據(jù)庫中文本元素之間的關(guān)聯(lián)度統(tǒng)計表,并根據(jù)文本元素的使用頻率對關(guān)聯(lián)度統(tǒng)計表進(jìn)行實(shí)時更新;B、建立數(shù)據(jù)庫中文本元素的匹配函數(shù),使用匹配函數(shù)對文本元素進(jìn)行匹配造詞,匹配優(yōu)先級與文本元素的關(guān)聯(lián)度成正比;C、對匹配出的詞組進(jìn)行篩選,保留可靠性超出設(shè)定閾值的詞組;D、對步驟C中保留的詞組進(jìn)行使用狀態(tài)監(jiān)控,根據(jù)監(jiān)控反饋對匹配函數(shù)進(jìn)行實(shí)時更新。本發(fā)明能夠解決現(xiàn)有技術(shù)的不足,有效提高了智能造詞的效率和準(zhǔn)確度。
技術(shù)領(lǐng)域
本公開涉及人工智能技術(shù)領(lǐng)域,尤其是一種基于NLP和企業(yè)信息的智能造詞方法。
背景技術(shù)
NLP(自然語言處理)是近些年興起的人機(jī)交互方式,廣泛應(yīng)用于語音識別、語言生成、機(jī)器翻譯等多個領(lǐng)域。在各類商用數(shù)據(jù)庫應(yīng)用中,為了提高通訊效率,需要事先對常用詞匯進(jìn)行統(tǒng)計和存儲。利用NLP技術(shù)自動生成詞組成為了近些年研發(fā)的熱點(diǎn)。
發(fā)明內(nèi)容
本公開要解決的技術(shù)問題是提供一種基于NLP和企業(yè)信息的智能造詞方法,能夠解決現(xiàn)有技術(shù)的不足,有效提高了智能造詞的效率和準(zhǔn)確度。
為解決上述技術(shù)問題,本公開所采取的技術(shù)方案如下。
一個方面,一種基于NLP和企業(yè)信息的智能造詞方法,包括以下步驟:
A、建立數(shù)據(jù)庫中文本元素之間的關(guān)聯(lián)度統(tǒng)計表,并根據(jù)文本元素的使用頻率對關(guān)聯(lián)度統(tǒng)計表進(jìn)行實(shí)時更新;
B、建立數(shù)據(jù)庫中文本元素的匹配函數(shù),使用匹配函數(shù)對文本元素進(jìn)行匹配造詞,匹配優(yōu)先級與文本元素的關(guān)聯(lián)度成正比;
C、對匹配出的詞組進(jìn)行篩選,保留可靠性超出設(shè)定閾值的詞組;
D、對步驟C中保留的詞組進(jìn)行使用狀態(tài)監(jiān)控,根據(jù)監(jiān)控反饋對匹配函數(shù)進(jìn)行實(shí)時更新。
根據(jù)本公開的一個實(shí)施方式,步驟A中,關(guān)聯(lián)度統(tǒng)計表包括任意一個文本元素與其它任意一個文本元素的單維關(guān)聯(lián)度,以及任意一個文本元素與其它至少任意兩個文本元素的多維關(guān)聯(lián)度。
根據(jù)本公開的一個實(shí)施方式,步驟B中,首先使用單維關(guān)聯(lián)度對匹配函數(shù)進(jìn)行線性變換,然后使用多維關(guān)聯(lián)度對匹配函數(shù)進(jìn)行非線性變換。
根據(jù)本公開的一個實(shí)施方式,步驟C中,使用詞組中各文本元素的匹配命中率對詞組可靠性進(jìn)行計算,
其中,h為詞組中各文本元素的匹配命中率,R為詞組可靠性。
根據(jù)本公開的一個實(shí)施方式,步驟D中,建立匹配函數(shù)的權(quán)重集合,根據(jù)監(jiān)控反饋,將命中率與權(quán)重集合中的權(quán)重值進(jìn)行線性調(diào)整。
另一方面,一種基于NLP和企業(yè)信息的智能造詞系統(tǒng),包括:
聯(lián)度統(tǒng)計表更新模塊:建立數(shù)據(jù)庫中文本元素之間的關(guān)聯(lián)度統(tǒng)計表,并根據(jù)文本元素的使用頻率對關(guān)聯(lián)度統(tǒng)計表進(jìn)行實(shí)時更新;
造詞模塊:建立數(shù)據(jù)庫中文本元素的匹配函數(shù),使用匹配函數(shù)對文本元素進(jìn)行匹配造詞,匹配優(yōu)先級與文本元素的關(guān)聯(lián)度成正比;
篩選模塊:對匹配出的詞組進(jìn)行篩選,保留可靠性超出設(shè)定閾值的詞組;
匹配函數(shù)更新模塊:對步驟C中保留的詞組進(jìn)行使用狀態(tài)監(jiān)控,根據(jù)監(jiān)控反饋對匹配函數(shù)進(jìn)行實(shí)時更新。
根據(jù)本公開的一個實(shí)施方式,聯(lián)度統(tǒng)計表更新模塊中,關(guān)聯(lián)度統(tǒng)計表包括任意一個文本元素與其它任意一個文本元素的單維關(guān)聯(lián)度,以及任意一個文本元素與其它至少任意兩個文本元素的多維關(guān)聯(lián)度。
根據(jù)本公開的一個實(shí)施方式,造詞模塊中,首先使用單維關(guān)聯(lián)度對匹配函數(shù)進(jìn)行線性變換,然后使用多維關(guān)聯(lián)度對匹配函數(shù)進(jìn)行非線性變換。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東原昇信息科技有限公司,未經(jīng)廣東原昇信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811278241.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于匹配優(yōu)化的光場數(shù)據(jù)深度重建方法
- 三維再生核空間函數(shù)圖像合成方法
- 基于熵原理的車身外形均勻匹配方法
- 用聚類分析分類觀察者顏色匹配函數(shù)的方法
- 一種基于徑向基函數(shù)擬合的局部自適應(yīng)誤匹配點(diǎn)剔除方法
- 一種基于匹配的物聯(lián)網(wǎng)固件庫函數(shù)識別方法
- MPP架構(gòu)下聚集函數(shù)的執(zhí)行方法和數(shù)據(jù)庫系統(tǒng)
- 基于基本塊上下文信息的二進(jìn)制函數(shù)差分分析方法
- 一種圖像匹配方法、裝置、電子設(shè)備及可讀存儲介質(zhì)
- 接口調(diào)度方法、系統(tǒng)及計算機(jī)可讀存儲介質(zhì)





