[發(fā)明專利]一種新詞的確定方法及裝置有效
| 申請?zhí)枺?/td> | 202010696059.4 | 申請日: | 2020-07-20 |
| 公開(公告)號: | CN111563143B | 公開(公告)日: | 2020-11-03 |
| 發(fā)明(設計)人: | 劉凡平;沈振雷;陳慧 | 申請(專利權(quán))人: | 上海二三四五網(wǎng)絡科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 上海唯源專利代理有限公司 31229 | 代理人: | 曾耀先 |
| 地址: | 200137 上海市浦*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 新詞 確定 方法 裝置 | ||
本發(fā)明公開了一種新詞的確定方法,其基于深度神經(jīng)網(wǎng)絡確定新詞,包括如下步驟:a:基于N?Gram算法以及待鑒定文本生成多個原始候選詞;b:基于BERT模型對多個所述原始候選詞進行訓練,并確定多個向量化候選詞;c:基于深度神經(jīng)網(wǎng)絡將多個向量化候選詞輸出成標記為{y1,y2}的神經(jīng)元;d:將一個或多個確定為詞語的一個或多個原始候選詞在數(shù)據(jù)庫中進行匹配,若不存在于數(shù)據(jù)庫中,則確定一個或多個所述原始候選詞為新詞。本發(fā)明全程經(jīng)過計算機大數(shù)據(jù)智能運算,基于搜索目標、范圍可大量確定當前社會中出現(xiàn)的新詞,拓展輸入法詞庫,本發(fā)明結(jié)構(gòu)簡單、使用方便、實用性強、具有極高的商業(yè)價值。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機技術(shù)應用領(lǐng)域,具體地,涉及一種新詞的確定方法及裝置。
背景技術(shù)
隨著社會的不斷進步,互聯(lián)網(wǎng)在人們?nèi)粘I钪械钠占埃伺c人之間的溝通也不僅僅局限于面對面,而更多的是通過網(wǎng)絡來實現(xiàn)有效的溝通,在這樣的一個多元化快節(jié)奏發(fā)展的現(xiàn)代化社會中,每時每刻都在發(fā)生著大大小小的事情,而新詞的產(chǎn)生是現(xiàn)代化發(fā)展所衍生的產(chǎn)物,其將人們帶入到更為有效、有趣的溝通中,例如近些年來所出現(xiàn)的新詞“囧態(tài)”、“葛優(yōu)癱”、“鴿了”、“老司機”等等,而這些新詞所描繪的意義、場景往往會隨著溝通中的人們的廣泛應用而逐漸被廣為接受。
然而,作為一些第三方平臺或系統(tǒng),往往需要更加貼合于用戶的使用習慣以及興趣愛好,這樣才能更好的為用戶提供優(yōu)質(zhì)服務,而隨著互聯(lián)網(wǎng)的飛速發(fā)展,現(xiàn)在的新詞更是層出不窮,甚至對于第三方平臺或系統(tǒng),往往會因為無法識別一些新詞而給用戶帶來一些困擾及影響,而如何更好的與現(xiàn)代社會的新詞出現(xiàn)接軌成為了目前一些商家亟待解決的技術(shù)問題,如何大量、精準的獲取到近期出現(xiàn)的新詞更是目前最為重要的技術(shù)問題。
新詞的發(fā)現(xiàn)一般是從自由度和凝固度角度考慮,前者具有比較豐富的上下文,后者還需要本身內(nèi)部滿足一定條件,詞內(nèi)部要比較穩(wěn)固或者內(nèi)部凝固程度較高,目前,并沒有一種能夠解決上述技術(shù)問題的技術(shù)方案,具體地,并沒有一種新詞的確定方法及裝置。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的技術(shù)缺陷,本發(fā)明的目的是提供一種新詞的確定方法及裝置,根據(jù)本發(fā)明的一個方面,提供了一種新詞的確定方法,其基于深度神經(jīng)網(wǎng)絡確定新詞,包括如下步驟:
a:基于N-Gram算法以及待鑒定文本生成多個原始候選詞;
b:基于BERT模型對多個所述原始候選詞進行訓練,并確定多個向量化候選詞;
c:基于深度神經(jīng)網(wǎng)絡將多個向量化候選詞輸出成標記為{y1,y2}的神經(jīng)元,其中,
當y1為1,y2為0時,確定與所述向量化候選詞相對應地原始候選詞為詞語,當y1為0,y2為1時,確定與所述向量化候選詞相對應地原始候選詞不為詞語;
d:將一個或多個確定為詞語的一個或多個原始候選詞在數(shù)據(jù)庫中進行匹配,若不存在于數(shù)據(jù)庫中,則確定一個或多個所述原始候選詞為新詞。
優(yōu)選地,在所述步驟a中,通過如下方式將文本內(nèi)容確定為所述待鑒定文本:
- 字節(jié)流;
- 字符流;或者
- 詞流。
優(yōu)選地,在所述步驟a中,基于所述N-Gram算法生成所述原始候選詞通過如下方式確定:
a1:將待鑒定文本進行大小為N的滑動窗口操作,形成長度為N的字符串,每個字符串稱為gram,其中,1〈N〈M,所述M為所述原始候選詞的字符串個數(shù);
a2:將長度為N所形成的所有字符串確定為原始候選詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海二三四五網(wǎng)絡科技有限公司,未經(jīng)上海二三四五網(wǎng)絡科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010696059.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





