[發(fā)明專(zhuān)利]一種融合文本概念化和網(wǎng)絡(luò)表示的觀點(diǎn)檢索系統(tǒng)及方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810170047.0 | 申請(qǐng)日: | 2018-03-01 |
| 公開(kāi)(公告)號(hào): | CN108399238A | 公開(kāi)(公告)日: | 2018-08-14 |
| 發(fā)明(設(shè)計(jì))人: | 廖祥文;陳國(guó)龍;劉德元;楊定達(dá) | 申請(qǐng)(專(zhuān)利權(quán))人: | 福州大學(xué) |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 福州元?jiǎng)?chuàng)專(zhuān)利商標(biāo)代理有限公司 35100 | 代理人: | 蔡學(xué)俊;修斯文 |
| 地址: | 350108 福建省福*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 網(wǎng)絡(luò)表示 文檔 查詢(xún) 排序 檢索系統(tǒng) 檢索模塊 檢索 主題相似度 詞匯節(jié)點(diǎn) 得分計(jì)算 概念層面 檢索結(jié)果 輸出文檔 文本知識(shí) 用戶(hù)查詢(xún) 語(yǔ)義空間 語(yǔ)義聯(lián)系 融合 投射 低維 解析 抽象 輸出 學(xué)習(xí) 分類(lèi) 融入 統(tǒng)一 | ||
本發(fā)明涉及一種融合文本概念化和網(wǎng)絡(luò)表示的觀點(diǎn)檢索系統(tǒng)及方法。包括文本概念化模塊,判斷對(duì)應(yīng)多個(gè)概念的實(shí)體在具體上下文中的概念;網(wǎng)絡(luò)表示模塊,把詞匯節(jié)點(diǎn)投射到低維的語(yǔ)義空間中;觀點(diǎn)檢索得分計(jì)算模塊,計(jì)算查詢(xún)與文本的主題相似度得分、待查詢(xún)文檔的觀點(diǎn)得分,并得到一個(gè)文檔的綜合得分;統(tǒng)一相關(guān)檢索模塊,根據(jù)文檔綜合得分從高到低排序,得到查詢(xún)的觀點(diǎn)檢索結(jié)果并輸出;排序?qū)W習(xí)檢索模塊,將文本概念化特征、網(wǎng)絡(luò)表示特征和文本觀點(diǎn)得分特征融入到現(xiàn)有的排序?qū)W習(xí)框架中進(jìn)行分類(lèi),并按照順序輸出文檔。本發(fā)明能夠高效將文本知識(shí)進(jìn)行概念層面的抽象,能夠解析查詢(xún)和文本的語(yǔ)義聯(lián)系,檢索出與用戶(hù)查詢(xún)相關(guān)并帶有對(duì)查詢(xún)觀點(diǎn)的文檔。
技術(shù)領(lǐng)域
本發(fā)明涉及觀點(diǎn)檢索領(lǐng)域,更具體地,涉及一種融合文本概念化和網(wǎng)絡(luò)表示的觀點(diǎn)檢索系統(tǒng)及方法,,能夠結(jié)合知識(shí)圖譜,高效地從社交媒體等文檔集中檢索出與給定查詢(xún)相關(guān),同時(shí)帶有對(duì)查詢(xún)的觀點(diǎn)的相關(guān)文檔列表。
背景技術(shù)
當(dāng)前,有很多技術(shù)方法可用于觀點(diǎn)檢索。傳統(tǒng)的觀點(diǎn)檢索方法將觀點(diǎn)檢索分為兩個(gè)階段,首先利用傳統(tǒng)的信息檢索模型或者語(yǔ)言模型得到主題相關(guān)的文檔集合,接著利用觀點(diǎn)分類(lèi)器從主題相關(guān)文檔中得到帶有觀點(diǎn)的文檔,該類(lèi)方法工作重點(diǎn)在于第二個(gè)階段,但用于觀點(diǎn)檢索中缺少理論依據(jù),效果也不夠理想。
當(dāng)前,存在著一些統(tǒng)一觀點(diǎn)檢索模型。將主題相關(guān)度和觀點(diǎn)得分結(jié)合到統(tǒng)一的檢索模型中,從傳統(tǒng)的基于統(tǒng)計(jì)的檢索模型出發(fā),推導(dǎo)出統(tǒng)一的檢索模型,模型包含了主題相關(guān)部分和觀點(diǎn)相關(guān)部分。該類(lèi)模型相對(duì)于兩階段模型,具有在理論上易解釋、對(duì)信息需求表達(dá)更直接有效等優(yōu)點(diǎn)。
當(dāng)前,還存在著一些排序?qū)W習(xí)觀點(diǎn)檢索模型。該類(lèi)模型將觀點(diǎn)檢索問(wèn)題視為分類(lèi)問(wèn)題,提取文本特征、作者特征和主觀性特征,采用排序?qū)W習(xí)框架對(duì)文本進(jìn)行傾向性檢索。一般而言,使用排序?qū)W習(xí)算法進(jìn)行觀點(diǎn)檢索往往可以取得較高的精度,但是由于其需要大量的人工標(biāo)注數(shù)據(jù)構(gòu)建訓(xùn)練集,因此這一方法的應(yīng)用場(chǎng)景相對(duì)于前兩種方法而言較為有限。
然而,在社交媒體中,用戶(hù)的查詢(xún)輸入通常較短,往往只是一個(gè)簡(jiǎn)單的詞語(yǔ),很難準(zhǔn)確表達(dá)用戶(hù)查詢(xún)的信息需求,而目前的觀點(diǎn)檢索系統(tǒng)和方法在檢索過(guò)程中往往無(wú)法根據(jù)上下文將詞匯進(jìn)行概念層面的抽象,并且在語(yǔ)義層面忽略詞匯之間的語(yǔ)義聯(lián)系,傾向性層面缺乏傾向性泛化能力。隨著近年來(lái)互聯(lián)網(wǎng)的高速發(fā)展,微博、論壇等社交媒體消息的不斷產(chǎn)生,這就對(duì)觀點(diǎn)檢索技術(shù)提出了一個(gè)挑戰(zhàn):如何構(gòu)建一個(gè)能充分解析查詢(xún)和文本的信息需求和語(yǔ)義的觀點(diǎn)檢索系統(tǒng)來(lái)檢索出符合用戶(hù)查詢(xún)需求的觀點(diǎn)文檔。因此,人們迫切希望有一種高效準(zhǔn)確的觀點(diǎn)檢索方法,該方法能夠理解用戶(hù)查詢(xún)信息需求,解析查詢(xún)和文本的語(yǔ)義聯(lián)系,檢索出社交媒體中與用戶(hù)查詢(xún)相關(guān)的觀點(diǎn)文檔。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種融合文本概念化和網(wǎng)絡(luò)表示的觀點(diǎn)檢索系統(tǒng)及方法,能夠高效將文本知識(shí)進(jìn)行概念層面的抽象,能夠解析查詢(xún)和文本的語(yǔ)義聯(lián)系,檢索出與用戶(hù)查詢(xún)相關(guān)并帶有對(duì)查詢(xún)觀點(diǎn)的文檔。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種融合文本概念化和網(wǎng)絡(luò)表示的觀點(diǎn)檢索系統(tǒng),包括
一文本概念化模塊,利用知識(shí)圖譜將用戶(hù)查詢(xún)和待查詢(xún)文檔映射到概念空間,通過(guò)分析查詢(xún)和文本的概念空間,判斷對(duì)應(yīng)多個(gè)概念的實(shí)體在具體上下文中的概念,以此來(lái)實(shí)現(xiàn)概念級(jí)別的推理;
一網(wǎng)絡(luò)表示模塊,基于網(wǎng)絡(luò)節(jié)點(diǎn)的網(wǎng)絡(luò)表示學(xué)習(xí),利用知識(shí)圖譜中的結(jié)構(gòu)化信息,學(xué)習(xí)捕獲詞匯之間的語(yǔ)義信息,把詞匯節(jié)點(diǎn)投射到低維的語(yǔ)義空間中;
一觀點(diǎn)檢索得分計(jì)算模塊,在概念空間計(jì)算查詢(xún)與文本的主題相似度得分,然后計(jì)算待查詢(xún)文檔的觀點(diǎn)得分,并根據(jù)主題相似度得分和文檔觀點(diǎn)得分得到一個(gè)文檔的綜合得分;
一統(tǒng)一相關(guān)檢索模塊,根據(jù)文檔綜合得分從高到低排序,得到查詢(xún)的觀點(diǎn)檢索結(jié)果并輸出;
一排序?qū)W習(xí)檢索模塊,將經(jīng)由文本概念化模塊、網(wǎng)絡(luò)表示模塊和觀點(diǎn)檢索得分計(jì)算模塊得到文本概念化特征、網(wǎng)絡(luò)表示特征和文本觀點(diǎn)得分特征融入到現(xiàn)有的排序?qū)W習(xí)框架中進(jìn)行分類(lèi),并按照順序輸出文檔。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于福州大學(xué),未經(jīng)福州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810170047.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 用戶(hù)畫(huà)像分群方法和裝置
- 一種網(wǎng)絡(luò)表示學(xué)習(xí)模型的訓(xùn)練方法及服務(wù)器
- 一種網(wǎng)絡(luò)節(jié)點(diǎn)的增強(qiáng)表示方法及裝置
- 一種基于最面向社會(huì)關(guān)系抽取的網(wǎng)絡(luò)表示方法
- 一種基于鄰居信息的網(wǎng)絡(luò)表示學(xué)習(xí)方法及系統(tǒng)
- 神經(jīng)網(wǎng)絡(luò)表示標(biāo)準(zhǔn)框架結(jié)構(gòu)
- 一種動(dòng)態(tài)異質(zhì)信息網(wǎng)絡(luò)嵌入方法、裝置和電子設(shè)備
- 一種基于圖注意力機(jī)制的多層網(wǎng)絡(luò)表示學(xué)習(xí)方法
- 圖神經(jīng)網(wǎng)絡(luò)表示架構(gòu)
- 一種歸納多層次圖網(wǎng)絡(luò)表示學(xué)習(xí)方法
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類(lèi)型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫(huà)生成方法、裝置及設(shè)備
- 帶有前處理和后處理的數(shù)據(jù)庫(kù)復(fù)合查詢(xún)系統(tǒng)及方法
- 數(shù)據(jù)庫(kù)查詢(xún)的方法和系統(tǒng)
- 查詢(xún)系統(tǒng)、查詢(xún)終端以及查詢(xún)方法
- 交易信息查詢(xún)方法、查詢(xún)裝置及查詢(xún)系統(tǒng)
- 數(shù)據(jù)查詢(xún)與結(jié)果生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 在RDF數(shù)據(jù)集上進(jìn)行OPTIONAL查詢(xún)的方法及存儲(chǔ)介質(zhì)
- 一種多表關(guān)聯(lián)查詢(xún)方法、裝置及設(shè)備
- 一種基于Impala的查詢(xún)方法和裝置
- 從查詢(xún)生成子查詢(xún)
- 一種基于通用查詢(xún)語(yǔ)言的查詢(xún)方法及查詢(xún)系統(tǒng)





