[發(fā)明專利]一種分類搜索的方法和裝置在審
| 申請?zhí)枺?/td> | 202011522666.5 | 申請日: | 2020-12-21 |
| 公開(公告)號: | CN112612945A | 公開(公告)日: | 2021-04-06 |
| 發(fā)明(設(shè)計)人: | 張瑩 | 申請(專利權(quán))人: | 網(wǎng)娛互動科技(北京)股份有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/9538;G06F40/289;G06K9/62 |
| 代理公司: | 北京久維律師事務(wù)所 11582 | 代理人: | 邢江峰 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分類 搜索 方法 裝置 | ||
本發(fā)明實(shí)施例涉及一種分類搜索的方法和裝置,所述方法包括:獲取第一搜索關(guān)鍵詞數(shù)據(jù)和第一搜索類型標(biāo)簽數(shù)據(jù);對第一信息記錄集合進(jìn)行輪詢,并將當(dāng)前被輪詢的第一信息記錄做為當(dāng)前信息記錄;從當(dāng)前信息記錄中,提取第一原文信息做為當(dāng)前原文信息,并提取第一關(guān)鍵詞信息組序列做為當(dāng)前關(guān)鍵詞信息組序列;根據(jù)第一搜索關(guān)鍵詞數(shù)據(jù),進(jìn)行第一搜索匹配處理;處理成功則根據(jù)第一搜索類型標(biāo)簽數(shù)據(jù),進(jìn)行第二搜索匹配處理;處理成功則將當(dāng)前原文信息做為第一搜索結(jié)果信息;由所有第一搜索結(jié)果信息組成第一搜索結(jié)果信息集合。使用本發(fā)明實(shí)施例,不僅可以減少數(shù)據(jù)資源浪費(fèi),還可以提高搜索效率、降低分析人員的工作難度、提升分析結(jié)果的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種分類搜索的方法和裝置。
背景技術(shù)
網(wǎng)絡(luò)信息分析就是根據(jù)特定的分析目標(biāo),對與這個分析目標(biāo)貼合的網(wǎng)絡(luò)信息進(jìn)行深層次的思維、加工、分析和研究,并最終得到相關(guān)分析結(jié)論。網(wǎng)絡(luò)信息分析的準(zhǔn)確度取決于網(wǎng)絡(luò)信息的數(shù)量和信息本身的貼合度。所以在進(jìn)行網(wǎng)絡(luò)信息分析之前,都需要收集足夠數(shù)量的、盡可能貼近分析目標(biāo)的海量數(shù)據(jù)來完成數(shù)據(jù)準(zhǔn)備工作。
然而在進(jìn)行數(shù)據(jù)收集時,我們發(fā)現(xiàn),雖然收集者可以通過人工查詢、搜索引擎或網(wǎng)絡(luò)爬蟲軟件等多種手段或工具,獲取到足夠多的原始信息源,但并不對收集到的信息源進(jìn)行特征提取處理;所以,在后期分析階段時,分析者只能通過全文比對的方式查找關(guān)鍵詞所在的信息。這種處理方式的缺陷很明顯,在數(shù)據(jù)量小的時候,執(zhí)行時間長、搜索效率低下;在處理海量數(shù)據(jù)的時候,常常會出現(xiàn)計算資源溢出等問題,無法完成搜索。這不僅僅加大了分析人員的工作難度、也容易造成數(shù)據(jù)資源浪費(fèi)、分析結(jié)果不準(zhǔn)確等問題。
發(fā)明內(nèi)容
本發(fā)明的目的,就是針對現(xiàn)有技術(shù)的缺陷,提供一種分類搜索的方法、裝置、電子設(shè)備、計算機(jī)程序產(chǎn)品及計算機(jī)可讀存儲介質(zhì),通過對收集到的原始信息進(jìn)行智能分詞和類型標(biāo)簽標(biāo)記處理,為原始信息增加了關(guān)鍵詞和與關(guān)鍵詞對應(yīng)的類型標(biāo)簽,在對經(jīng)過處理的原始信息集合進(jìn)行搜索時,使用關(guān)鍵詞加類型標(biāo)簽的搜索方式完成搜索;使用本發(fā)明實(shí)施例,不僅可以減少數(shù)據(jù)資源浪費(fèi),還可以提高搜索效率、降低分析人員的工作難度、提升分析結(jié)果的準(zhǔn)確性。
為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例第一方面提供了一種分類搜索的方法,所述方法包括:
獲取第一搜索關(guān)鍵詞數(shù)據(jù)和第一搜索類型標(biāo)簽數(shù)據(jù);
對預(yù)設(shè)的第一信息記錄集合的所有第一信息記錄進(jìn)行輪詢,并將當(dāng)前被輪詢的所述第一信息記錄,做為當(dāng)前信息記錄;所述第一信息記錄集合包括多個所述第一信息記錄;所述第一信息記錄包括第一原文信息和第一關(guān)鍵詞信息組序列;所述第一關(guān)鍵詞信息組序列包括多個第一關(guān)鍵詞信息組;所述第一關(guān)鍵詞信息組包括第一關(guān)鍵詞信息和第一關(guān)鍵詞類型標(biāo)簽信息;
從所述當(dāng)前信息記錄中,提取所述第一原文信息,做為當(dāng)前原文信息;并提取所述第一關(guān)鍵詞信息組序列,做為當(dāng)前關(guān)鍵詞信息組序列;
根據(jù)所述第一搜索關(guān)鍵詞數(shù)據(jù),對所述當(dāng)前關(guān)鍵詞信息組序列中的所有所述第一關(guān)鍵詞信息,進(jìn)行第一搜索匹配處理;
所述第一搜索匹配處理成功,則根據(jù)所述第一搜索類型標(biāo)簽數(shù)據(jù),對所述當(dāng)前關(guān)鍵詞信息組序列中的所有所述第一關(guān)鍵詞類型標(biāo)簽信息,進(jìn)行第二搜索匹配處理;
所述第二搜索匹配處理成功,則將所述當(dāng)前原文信息,做為第一搜索結(jié)果信息;
由所有所述第一搜索結(jié)果信息,組成第一搜索結(jié)果信息集合。
優(yōu)選的,所述根據(jù)所述第一搜索關(guān)鍵詞數(shù)據(jù),對所述當(dāng)前關(guān)鍵詞信息組序列中的所有所述第一關(guān)鍵詞信息,進(jìn)行第一搜索匹配處理,具體包括:
依次提取所述當(dāng)前關(guān)鍵詞信息組序列中的所述第一關(guān)鍵詞信息,做為當(dāng)前關(guān)鍵詞信息,當(dāng)所述當(dāng)前關(guān)鍵詞信息與所述第一搜索關(guān)鍵詞數(shù)據(jù)相同時,所述第一搜索匹配處理成功。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于網(wǎng)娛互動科技(北京)股份有限公司,未經(jīng)網(wǎng)娛互動科技(北京)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011522666.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





