[發(fā)明專利]一種基于循環(huán)卷積網(wǎng)絡(luò)的觀點(diǎn)檢索系統(tǒng)及其觀點(diǎn)檢索方法有效
| 申請(qǐng)?zhí)枺?/td> | 201911180005.6 | 申請(qǐng)日: | 2019-11-27 |
| 公開(kāi)(公告)號(hào): | CN110879834B | 公開(kāi)(公告)日: | 2022-06-03 |
| 發(fā)明(設(shè)計(jì))人: | 廖祥文;張銘洲;陳志豪;蘇錦河;吳運(yùn)兵 | 申請(qǐng)(專利權(quán))人: | 福州大學(xué) |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F40/205;G06F40/242;G06F40/279;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 福州元?jiǎng)?chuàng)專利商標(biāo)代理有限公司 35100 | 代理人: | 錢莉;蔡學(xué)俊 |
| 地址: | 350108 福建省福州市*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 循環(huán) 卷積 網(wǎng)絡(luò) 觀點(diǎn) 檢索系統(tǒng) 及其 檢索 方法 | ||
本發(fā)明涉及一種基于循環(huán)卷積網(wǎng)絡(luò)的觀點(diǎn)檢索系統(tǒng)及其觀點(diǎn)檢索方法,數(shù)據(jù)預(yù)處理模塊對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理;查詢語(yǔ)句與文檔相關(guān)性得分計(jì)算模塊將查詢?文檔分別映射到低維的語(yǔ)義空間中獲取詞向量表示,輸入循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本上下文語(yǔ)義信息,計(jì)算出相關(guān)性得分;待查詢文檔的觀點(diǎn)得分計(jì)算模塊計(jì)算文檔的觀點(diǎn)得分;統(tǒng)一相關(guān)檢索模塊根據(jù)相關(guān)性得分以及文檔觀點(diǎn)得分進(jìn)行計(jì)算,由高到低排序得到查詢的觀點(diǎn)檢索結(jié)果;排序?qū)W習(xí)檢索模塊將相關(guān)性得分作為新的特征加入到常用的特征、文本概念化特征、網(wǎng)絡(luò)表示特征和觀點(diǎn)得分特征中,將這些特征融入到排序?qū)W習(xí)框架中進(jìn)行分類,按照順序輸出文檔。本發(fā)明能夠更好的提高語(yǔ)義泛化程度觀點(diǎn)檢索模型的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及觀點(diǎn)檢索領(lǐng)域,特別是一種基于循環(huán)卷積網(wǎng)絡(luò)的觀點(diǎn)檢索系統(tǒng)及其觀點(diǎn)檢索方法。
背景技術(shù)
觀點(diǎn)檢索旨在從社交媒體等文檔集中找出帶有觀點(diǎn)的相關(guān)文檔。隨著Web2.0的蓬勃發(fā)展,觀點(diǎn)檢索作為自然語(yǔ)言處理和文本挖掘領(lǐng)域的前沿研究課題,在學(xué)術(shù)界和工業(yè)界得到了廣泛的關(guān)注,觀點(diǎn)檢索模型的研究經(jīng)歷了早期的二階段檢索模型,到統(tǒng)一相關(guān)模型,再到基于排序?qū)W習(xí)的檢索模型這三個(gè)階段。下面將對(duì)這三個(gè)階段作簡(jiǎn)要介紹。
二階段檢索模型首先通過(guò)檢索出與給定查詢語(yǔ)句相關(guān)的文檔,接著識(shí)別出這些與給定查詢語(yǔ)句相關(guān)文檔的傾向性,最后綜合相關(guān)性和傾向性對(duì)文檔進(jìn)行排序。該模型結(jié)構(gòu)簡(jiǎn)單,容易理解,但是缺乏理論解釋。該方法第一階段通常采用語(yǔ)言模型、BM25等經(jīng)典檢索模型,而第二階段,即文檔的觀點(diǎn)挖掘,為該方法的研究重點(diǎn)。
統(tǒng)一檢索模型則借助當(dāng)前信息檢索和文本挖掘領(lǐng)域的最新模型,直接挖掘查詢語(yǔ)句的傾向性,對(duì)文檔進(jìn)行排序。該方法相對(duì)于二階段檢索模型,更加容易理解、并且對(duì)于信息需求表達(dá)的更為明確。
排序?qū)W習(xí)模型(Learning to Rank,L2R),是利用特征提取和機(jī)器學(xué)習(xí)對(duì)推文進(jìn)行傾向性檢索。該方法的研究目前處于起步階段,相比以上兩個(gè)模型,往往能獲得更好的檢索效果,但需要進(jìn)行大量的人工標(biāo)注,因此這一方法的應(yīng)用場(chǎng)景相對(duì)于前兩種方法而言較為有限。
現(xiàn)有的工作大多數(shù)根據(jù)相關(guān)性建模,通常采用詞語(yǔ)匹配的方式,然而查詢語(yǔ)句與文檔之間,僅共享少數(shù)的詞語(yǔ),所以相關(guān)性得分低。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種基于循環(huán)卷積網(wǎng)絡(luò)的觀點(diǎn)檢索系統(tǒng)及其觀點(diǎn)檢索方法,能夠高效地解析查詢和文本的語(yǔ)義聯(lián)系,檢索出與用戶查詢相關(guān)并帶有對(duì)查詢觀點(diǎn)的文檔。
本發(fā)明采用以下方案實(shí)現(xiàn):一種基于循環(huán)卷積網(wǎng)絡(luò)的觀點(diǎn)檢索系統(tǒng),包括數(shù)據(jù)預(yù)處理模塊、查詢語(yǔ)句與文檔相關(guān)性得分計(jì)算模塊、待查詢文檔的觀點(diǎn)得分計(jì)算模塊、統(tǒng)一相關(guān)檢索模塊和排序?qū)W習(xí)檢索模塊;
所述數(shù)據(jù)預(yù)處理模塊用以對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;所述查詢語(yǔ)句與文檔相關(guān)性得分計(jì)算模塊用以通過(guò)循環(huán)卷積網(wǎng)絡(luò)得到各種長(zhǎng)度下的N-gram表示,將結(jié)果輸入核池層并使用排序?qū)W習(xí)方法,獲得查詢語(yǔ)句與文檔的相關(guān)性;所述待查詢文檔的觀點(diǎn)得分計(jì)算模塊用以計(jì)算文檔的觀點(diǎn)得分;所述統(tǒng)一相關(guān)檢索模塊用以根據(jù)查詢語(yǔ)句與文檔相關(guān)性得分和文檔觀點(diǎn)得分得到一個(gè)文檔的綜合得分,文檔綜合得分從高到低排序,得到查詢的觀點(diǎn)檢索結(jié)果并輸出;所述排序?qū)W習(xí)檢索模塊用以將基于循環(huán)卷積網(wǎng)絡(luò)計(jì)算出來(lái)的相關(guān)性得分作為新的特征加入到基于排序?qū)W習(xí)的推特信息常用的特征,以及在排序?qū)W習(xí)模型中性能最好的文本概念化特征、網(wǎng)絡(luò)表示特征和觀點(diǎn)得分特征中,并將這些特征融入到排序?qū)W習(xí)框架中進(jìn)行分類,并按照順序輸出文檔。
進(jìn)一步地,所述推特信息常用的特征包括否有提及他人@、是否有超鏈接、作者的寫作長(zhǎng)度和發(fā)表篇數(shù)。
進(jìn)一步地,本發(fā)明提供一種基于循環(huán)卷積網(wǎng)絡(luò)的觀點(diǎn)檢索系統(tǒng)的觀點(diǎn)檢索方法,包括以下步驟:
步驟S1:所述數(shù)據(jù)預(yù)處理模塊對(duì)數(shù)據(jù)進(jìn)行預(yù)處理包括分詞、去除停用詞的操作;將查詢語(yǔ)句與待查詢的文檔分別映射到低維的語(yǔ)義空間中獲取詞向量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學(xué),未經(jīng)福州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911180005.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 循環(huán)貨倉(cāng)的錯(cuò)列循環(huán)鏈
- 循環(huán)貨倉(cāng)的錯(cuò)列循環(huán)鏈
- 球循環(huán)機(jī)和球循環(huán)方法
- 循環(huán)扇葉輪及循環(huán)扇
- 循環(huán)過(guò)濾式熱風(fēng)循環(huán)烘箱
- 循環(huán)泵(微循環(huán)泵)
- 機(jī)內(nèi)循環(huán)油循環(huán)系統(tǒng)
- 循環(huán)用水機(jī)與循環(huán)系統(tǒng)
- 自動(dòng)熱能循環(huán)利用熱風(fēng)循環(huán)烘箱
- 高溫循環(huán)風(fēng)扇自循環(huán)降溫裝置
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





