[發(fā)明專(zhuān)利]基于詞性的文本檢索方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110737521.5 | 申請(qǐng)日: | 2021-06-30 |
| 公開(kāi)(公告)號(hào): | CN113505196A | 公開(kāi)(公告)日: | 2021-10-15 |
| 發(fā)明(設(shè)計(jì))人: | 楊鑫;趙從志;萬(wàn)周斌;趙順?lè)?/a> | 申請(qǐng)(專(zhuān)利權(quán))人: | 和美(深圳)信息技術(shù)股份有限公司 |
| 主分類(lèi)號(hào): | G06F16/33 | 分類(lèi)號(hào): | G06F16/33 |
| 代理公司: | 北京鍾維聯(lián)合知識(shí)產(chǎn)權(quán)代理有限公司 11579 | 代理人: | 安娜 |
| 地址: | 518040 廣東省深圳市福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 詞性 文本 檢索 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)涉及文本檢索技術(shù)領(lǐng)域,公開(kāi)了一種基于詞性的文本檢索方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),以提高了文本檢索精準(zhǔn)度,該方法包括:獲取輸入文本,從語(yǔ)料庫(kù)中檢索與輸入文本相關(guān)的候選文本;對(duì)輸入文本進(jìn)行分詞處理,獲得若干個(gè)檢索詞;從基于語(yǔ)料庫(kù)構(gòu)建的詞典中獲取每個(gè)檢索詞與每個(gè)候選文本的相關(guān)性得分;針對(duì)每個(gè)候選文本,對(duì)若干個(gè)檢索詞與該候選文本的相關(guān)性得分進(jìn)行加權(quán)求和,以獲得該候選文本與輸入文本的相關(guān)度,其中,每個(gè)檢索詞對(duì)應(yīng)的權(quán)重是基于該檢索詞的詞性和該檢索詞在輸入文本中出現(xiàn)的次數(shù)確定的;基于每個(gè)候選文本與輸入文本的相關(guān)度,從候選文本中確定出輸入文本對(duì)應(yīng)的檢索結(jié)果。
技術(shù)領(lǐng)域
本申請(qǐng)涉及文本檢索技術(shù)領(lǐng)域,尤其涉及一種基于詞性的文本檢索方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
文本檢索(Text Retrieval)與圖象檢索、聲音檢索、圖片檢索等都是信息檢索的一部分,是指根據(jù)文本內(nèi)容,如關(guān)鍵字、語(yǔ)意等對(duì)文本集合進(jìn)行檢索、分類(lèi)、過(guò)濾等。文本檢索換言之也為自然語(yǔ)言檢索,指不對(duì)文獻(xiàn)進(jìn)行任何標(biāo)引,直接通過(guò)計(jì)算機(jī)以自然語(yǔ)言中的語(yǔ)詞匹配查找的系統(tǒng)。文本檢索在應(yīng)用場(chǎng)景有搜索引擎、機(jī)器人問(wèn)答等應(yīng)用場(chǎng)景。在檢索海量信息時(shí),雖然搜索引擎可以篩選與檢索條件相關(guān)的信息并且以標(biāo)題列表的方式反饋給用戶,但是搜索引擎提供的結(jié)果不夠簡(jiǎn)潔和直接,用戶仍需花大量時(shí)間去逐一瀏覽檢索結(jié)果,降低了信息獲取的效率。
目前可通過(guò)計(jì)算搜索結(jié)果和檢索條件的相關(guān)性評(píng)分,解決信息獲取效率第問(wèn)題。其中,基于TF-IDF的文本檢索方法的思想是文章中出現(xiàn)次數(shù)越高的詞語(yǔ),其和句子與文章主題的關(guān)聯(lián)度越高,因此可以根據(jù)詞語(yǔ)的詞頻和每個(gè)句子出現(xiàn)的頻率給文本中的句子打分,這種方式?jīng)]有結(jié)合到其他的句子信息,只是簡(jiǎn)單的基于詞頻信息,獲得的相關(guān)性評(píng)分不是很準(zhǔn)確。后續(xù)有研究提出利用機(jī)器學(xué)習(xí)進(jìn)行文本檢索方向的技術(shù)主要是直接利用BM25進(jìn)行檢索,BM25算法通常用來(lái)計(jì)算搜索相關(guān)性評(píng)分,該算法進(jìn)一步考慮了詞頻出現(xiàn)的不同位置和不同位置的權(quán)重問(wèn)題,相對(duì)于TF-IDF計(jì)算更加的準(zhǔn)確,但是BM25算法本質(zhì)上仍然只是考慮的詞頻的影響因素。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例提供一種基于詞性的文本檢索方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),根據(jù)不同檢索詞的詞性將輸入文本的語(yǔ)義信息巧妙融合到相關(guān)度中,提高了文本檢索精準(zhǔn)度。
一方面,本申請(qǐng)一實(shí)施例提供了一種基于詞性的文本檢索方法,包括:
獲取輸入文本,從語(yǔ)料庫(kù)中檢索與所述輸入文本相關(guān)的候選文本;
對(duì)所述輸入文本進(jìn)行分詞處理,獲得若干個(gè)檢索詞;
從基于所述語(yǔ)料庫(kù)構(gòu)建的詞典中獲取每個(gè)檢索詞與每個(gè)候選文本的相關(guān)性得分,其中,所述詞典中包括所述語(yǔ)料庫(kù)中的每個(gè)詞語(yǔ)與每個(gè)詞語(yǔ)所屬文本之間的相關(guān)性得分;
針對(duì)每個(gè)候選文本,對(duì)所述若干個(gè)檢索詞與該候選文本的相關(guān)性得分進(jìn)行加權(quán)求和,以獲得該候選文本與所述輸入文本的相關(guān)度,其中,每個(gè)檢索詞對(duì)應(yīng)的權(quán)重是基于該檢索詞的詞性和該檢索詞在所述輸入文本中出現(xiàn)的次數(shù)確定的;
基于每個(gè)候選文本與所述輸入文本的相關(guān)度,從候選文本中確定出所述輸入文本對(duì)應(yīng)的檢索結(jié)果。
可選地,對(duì)所述若干個(gè)檢索詞與該候選文本的相關(guān)性得分進(jìn)行加權(quán)求和,以獲得該候選文本與所述輸入文本的相關(guān)度,具體包括:
基于如下公式獲得第i個(gè)候選文本D'i與所述輸入文本Q的相關(guān)度:
其中,Q被分成n個(gè)檢索詞,R(qj,D'i)表示第j個(gè)檢索詞qj與候選文本D'i的相關(guān)性得分,wj表示檢索詞qj在所述輸入文本Q中出現(xiàn)的次數(shù),表示基于檢索詞qj的詞性確定的詞性權(quán)重。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于和美(深圳)信息技術(shù)股份有限公司,未經(jīng)和美(深圳)信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110737521.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種金及其核殼納米晶的制備方法及裝置
- 下一篇:一種LED防水燈
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





