[發(fā)明專利]領(lǐng)域短語挖掘方法、裝置和電子設(shè)備在審
| 申請?zhí)枺?/td> | 202110308803.3 | 申請日: | 2021-03-23 |
| 公開(公告)號: | CN112818686A | 公開(公告)日: | 2021-05-18 |
| 發(fā)明(設(shè)計)人: | 龔細(xì)軍;劉釗;李睿;李瑞鋒;唐海浩 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06K9/62 |
| 代理公司: | 北京銀龍知識產(chǎn)權(quán)代理有限公司 11243 | 代理人: | 黃燦;尹倩 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 領(lǐng)域 短語 挖掘 方法 裝置 電子設(shè)備 | ||
本公開公開了一種領(lǐng)域短語挖掘方法、裝置和電子設(shè)備,涉及計算機技術(shù)領(lǐng)域,尤其涉及語言處理技術(shù)領(lǐng)域。具體實現(xiàn)方案為:對目標(biāo)文本中的領(lǐng)域短語進(jìn)行詞向量轉(zhuǎn)換以獲得第一詞向量,對所述目標(biāo)文本中的未知短語進(jìn)行詞向量轉(zhuǎn)換以獲得第二詞向量,其中,所述領(lǐng)域短語為所述目標(biāo)文本所屬領(lǐng)域中的短語;獲取所述第一詞向量和所述第二詞向量形成的詞向量空間,并識別所述詞向量空間中位于所述第二詞向量周圍的預(yù)設(shè)數(shù)量的目標(biāo)詞向量;基于所述預(yù)設(shè)數(shù)量的目標(biāo)詞向量與所述第二詞向量之間的相似度值,確定所述未知短語是否為所述目標(biāo)文本所屬領(lǐng)域的短語。本公開能夠提高對領(lǐng)域短語挖掘的效率和準(zhǔn)確性。
技術(shù)領(lǐng)域
本公開涉及計算機技術(shù)領(lǐng)域,尤其涉及語言處理技術(shù)領(lǐng)域,具體涉及一種領(lǐng)域短語挖掘方法、裝置和電子設(shè)備。
背景技術(shù)
由于領(lǐng)域短語能夠代表領(lǐng)域特性并能夠區(qū)別于其他領(lǐng)域的特征,領(lǐng)域短語的挖掘成為了文字信息處理中重要的基礎(chǔ)工作之一。而隨著當(dāng)今互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)民的創(chuàng)作內(nèi)容被廣泛挖掘和傳播,新短語新詞匯也不斷涌現(xiàn),挖掘領(lǐng)域短語也就成為了內(nèi)容挖掘領(lǐng)域的一項重要工作。
發(fā)明內(nèi)容
本公開提供了一種領(lǐng)域短語挖掘方法、裝置和電子設(shè)備。
根據(jù)本公開的第一方面,提供了一種領(lǐng)域短語挖掘方法,包括:
對目標(biāo)文本中的領(lǐng)域短語進(jìn)行詞向量轉(zhuǎn)換以獲得第一詞向量,對所述目標(biāo)文本中的未知短語進(jìn)行詞向量轉(zhuǎn)換以獲得第二詞向量,其中,所述領(lǐng)域短語為所述目標(biāo)文本所屬領(lǐng)域中的短語;
獲取所述第一詞向量和所述第二詞向量形成的詞向量空間,并識別所述詞向量空間中位于所述第二詞向量周圍的預(yù)設(shè)數(shù)量的目標(biāo)詞向量;
基于所述預(yù)設(shè)數(shù)量的目標(biāo)詞向量與所述第二詞向量之間的相似度值,確定所述未知短語是否為所述目標(biāo)文本所屬領(lǐng)域的短語。
根據(jù)本公開的第二方面,提供了一種領(lǐng)域短語挖掘裝置,包括:
轉(zhuǎn)換模塊,用于對目標(biāo)文本中的領(lǐng)域短語進(jìn)行詞向量轉(zhuǎn)換以獲得第一詞向量,對所述目標(biāo)文本中的未知短語進(jìn)行詞向量轉(zhuǎn)換以獲得第二詞向量,其中,所述領(lǐng)域短語為所述目標(biāo)文本所屬領(lǐng)域中的短語;
識別模塊,用于獲取所述第一詞向量和所述第二詞向量形成的詞向量空間,并識別所述詞向量空間中位于所述第二詞向量周圍的預(yù)設(shè)數(shù)量的目標(biāo)詞向量;
確定模塊,用于基于所述預(yù)設(shè)數(shù)量的目標(biāo)詞向量與所述第二詞向量之間的相似度值,確定所述未知短語是否為所述目標(biāo)文本所屬領(lǐng)域的短語。
根據(jù)本公開的第三方面,提供了一種電子設(shè)備,包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行第一方面所述的方法。
根據(jù)本公開的第四方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行根據(jù)第一方面所述的方法。
根據(jù)本公開的第五方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)第一方面所述的方法。
本公開提供的技術(shù)方案,通過識別第二詞向量周圍預(yù)設(shè)數(shù)量的第二詞向量,也就相當(dāng)于在聚類過程中加入了約束條件,以避免噪音加入到聚類簇中引發(fā)噪音擴大的問題,也就能夠提高對未知短語識別判斷的準(zhǔn)確性。
應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110308803.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





