[發(fā)明專利]一種無(wú)效上位詞的過(guò)濾方法、裝置及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201810043574.5 | 申請(qǐng)日: | 2018-01-17 |
| 公開(kāi)(公告)號(hào): | CN108304501B | 公開(kāi)(公告)日: | 2020-09-04 |
| 發(fā)明(設(shè)計(jì))人: | 鄭孫聰;李瀟 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F16/35;G06F40/284;G06F40/30;G06F40/289 |
| 代理公司: | 深圳翼盛智成知識(shí)產(chǎn)權(quán)事務(wù)所(普通合伙) 44300 | 代理人: | 黃威 |
| 地址: | 518057 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 無(wú)效 上位 過(guò)濾 方法 裝置 存儲(chǔ) 介質(zhì) | ||
本發(fā)明實(shí)施例公開(kāi)了無(wú)效上位詞的過(guò)濾方法、裝置及存儲(chǔ)介質(zhì),應(yīng)用于信息處理技術(shù)領(lǐng)域。在對(duì)無(wú)效上位詞進(jìn)行過(guò)濾時(shí),通過(guò)對(duì)待處理短文本進(jìn)行分字處理,得到第一分字處理結(jié)果,然后根據(jù)上位詞分類模型提取第一分字處理結(jié)果的語(yǔ)義特征,并根據(jù)獲取的語(yǔ)義特征獲取待處理短文本是否是無(wú)效上位詞的信息,以進(jìn)行過(guò)濾處理。這樣,將待處理短文本中所包括的各個(gè)字的語(yǔ)義特征作為判斷待處理短文本是否為無(wú)效上位詞的基準(zhǔn),使得得到的待處理短文本是否是無(wú)效上位詞的信息更為準(zhǔn)確,進(jìn)而使得對(duì)于無(wú)效上位詞的過(guò)濾更精確;且本發(fā)明實(shí)施例采用上位詞分類模型及待處理短文本所包括的各個(gè)字即可直接得出待處理短文本是否為無(wú)效上位詞的信息,計(jì)算過(guò)程較為簡(jiǎn)單。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別涉及一種無(wú)效上位詞的過(guò)濾方法、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù)
上位詞是指可以概括至少兩個(gè)實(shí)體的描述語(yǔ),比如動(dòng)物,植物等,目前已有的大規(guī)模上位詞集合都是通過(guò)從純文本中挖掘的上下位關(guān)系來(lái)獲取的。由于網(wǎng)絡(luò)中的純文本噪聲大且表述復(fù)雜,因此,會(huì)產(chǎn)生一些無(wú)具體意義的上位詞,即無(wú)效上位詞,比如:藍(lán)色的,或平凡的等,這就需要對(duì)無(wú)效上位詞進(jìn)行過(guò)濾。
無(wú)效上位詞的過(guò)濾是指識(shí)別出無(wú)效上位詞并從上位詞集合中過(guò)濾這些無(wú)效上位詞,提高上位詞集合的質(zhì)量?,F(xiàn)有的一種無(wú)效上位詞的過(guò)濾方法通常需要人工定義各種無(wú)效上位詞,然后再?gòu)纳衔辉~集合中過(guò)濾這些無(wú)效上位詞,這樣方法需要較多的人力,且最終過(guò)濾的結(jié)果也不具有泛化性。
現(xiàn)有的另一種無(wú)效上位詞的過(guò)濾方法是基于詞性標(biāo)注的過(guò)濾方法,不需要人工參與,具體包括:先確定上位詞的詞性,然后從上位詞集合中過(guò)濾與確定的詞性一致的詞語(yǔ)。但是有些上位詞一般是以一種短語(yǔ)或短句的形式體現(xiàn),比如“唐朝的詩(shī)人”等,而短語(yǔ)或短句不存在一個(gè)具體詞性,因此,基于詞性標(biāo)注的過(guò)濾方法很難過(guò)濾“短語(yǔ)或短句”類型的上位詞。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種無(wú)效上位詞的過(guò)濾方法、裝置及存儲(chǔ)介質(zhì),實(shí)現(xiàn)了根據(jù)上位詞分類模型確定待處理短文本是否為無(wú)效上位詞。
本發(fā)明實(shí)施例第一方面提供一種無(wú)效上位詞的過(guò)濾方法,包括:
對(duì)待處理短文本進(jìn)行分字處理,得到所述待處理短文本的第一分字處理結(jié)果;
確定上位詞分類模型;
根據(jù)所述上位詞分類模型提取所述第一分字處理結(jié)果的語(yǔ)義特征,并根據(jù)所述語(yǔ)義特征獲取所述待處理短文本是否為無(wú)效上位詞的信息,以進(jìn)行過(guò)濾處理。
本發(fā)明實(shí)施例第二方面提供一種無(wú)效上位詞的過(guò)濾裝置,包括:
分字單元,用于對(duì)待處理短文本進(jìn)行分字處理,得到所述待處理短文本的第一分字處理結(jié)果;
模型確定單元,用于確定上位詞分類模型;
信息分類單元,用于根據(jù)所述上位詞分類模型提取所述第一分字處理結(jié)果的語(yǔ)義特征,并根據(jù)所述語(yǔ)義特征獲取所述待處理短文本是否為無(wú)效上位詞的信息,以進(jìn)行過(guò)濾處理。
本發(fā)明實(shí)施例第三方面提供一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)儲(chǔ)存多條指令,所述指令適于由處理器加載并執(zhí)行如本發(fā)明實(shí)施例第一方面所述的無(wú)效上位詞的過(guò)濾方法。
本發(fā)明實(shí)施例第四方面提供一種終端設(shè)備,包括處理器和存儲(chǔ)介質(zhì),所述處理器,用于實(shí)現(xiàn)各個(gè)指令;所述存儲(chǔ)介質(zhì)儲(chǔ)存多條指令,所述指令適于由處理器加載并執(zhí)行如本發(fā)明實(shí)施例第一方面所述的無(wú)效上位詞的過(guò)濾方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810043574.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 無(wú)效化系統(tǒng)
- 無(wú)效模板生成方法及裝置、無(wú)效網(wǎng)頁(yè)識(shí)別方法及裝置
- 無(wú)效化列表生成裝置、無(wú)效化列表生成方法及內(nèi)容管理系統(tǒng)
- 無(wú)效鏈接的識(shí)別方法和裝置
- 一種無(wú)效像元的補(bǔ)償方法
- 寫入無(wú)效
- 多重?zé)o效
- 標(biāo)簽(撕毀無(wú)效)
- 無(wú)效數(shù)據(jù)資源的清除方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 存儲(chǔ)設(shè)備的數(shù)據(jù)寫入方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 用于微米過(guò)濾、超級(jí)過(guò)濾和納米過(guò)濾的過(guò)濾裝置
- 過(guò)濾裝置、過(guò)濾件及過(guò)濾方法
- 過(guò)濾膜、過(guò)濾單元、過(guò)濾系統(tǒng)以及過(guò)濾方法
- 過(guò)濾介質(zhì)、過(guò)濾元件和過(guò)濾組件
- 過(guò)濾裝置、過(guò)濾系統(tǒng)和過(guò)濾方法
- 過(guò)濾模組、過(guò)濾裝置及過(guò)濾方法
- 過(guò)濾介質(zhì)、過(guò)濾元件和過(guò)濾方法
- 過(guò)濾裝置、過(guò)濾系統(tǒng)及過(guò)濾方法
- 過(guò)濾材料、過(guò)濾組件、過(guò)濾器及過(guò)濾方法
- 過(guò)濾裝置(水過(guò)濾)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





