[發(fā)明專利]用于處理信息的方法和裝置有效
| 申請?zhí)枺?/td> | 201810585420.9 | 申請日: | 2018-06-08 |
| 公開(公告)號: | CN110580276B | 公開(公告)日: | 2022-06-28 |
| 發(fā)明(設計)人: | 吳石磊;王斐;彭鋒;楊維;孫敏琪 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡技術(北京)有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F40/289;G06F40/247 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 處理 信息 方法 裝置 | ||
本申請實施例公開了用于處理信息的方法和裝置。該方法的一具體實施方式包括:獲取用戶輸入的搜索詞和預先設置的待匹配詞匯集合,其中,對于待匹配詞匯集合中的待匹配詞匯,預先設置有該待匹配詞匯所對應的索引集合,索引集合包括文字索引;對所獲取的搜索詞進行切詞處理,獲得目標文本集合;基于索引集合中的文字索引,對目標文本集合和索引集合進行匹配,以確定出目標待匹配詞匯,其中,目標待匹配詞匯所對應的索引集合包括與目標文本集合中的目標文本相匹配的文字索引。該實施方式提高了信息處理的多樣性和靈活性。
技術領域
本申請實施例涉及計算機技術領域,尤其涉及用于處理信息的方法和裝置。
背景技術
通常,切詞指的是中文切詞。中文切詞又稱中文分詞。通過切詞,可以將一個漢字序列切分成一個或多個詞語。
切詞是文本挖掘的基礎。通過切詞,可以使計算機自動識別語句含義。在這里,這種通過切詞,使得計算機自動識別語句含義的方法又叫做機械分詞方法,它的主要原理是按照一定的策略將待分析漢字串與預先設置的機器詞典中的詞條進行匹配,以確定出待分析漢字串所對應的目標詞條。
發(fā)明內(nèi)容
本申請實施例提出了用于處理信息的方法和裝置。
第一方面,本申請實施例提供了一種用于處理信息的方法,該方法包括:獲取用戶輸入的搜索詞和預先設置的待匹配詞匯集合,其中,對于待匹配詞匯集合中的待匹配詞匯,預先設置有該待匹配詞匯所對應的索引集合,索引集合包括文字索引;對所獲取的搜索詞進行切詞處理,獲得目標文本集合;基于索引集合中的文字索引,對目標文本集合和索引集合進行匹配,以確定出目標待匹配詞匯,其中,目標待匹配詞匯所對應的索引集合包括與目標文本集合中的目標文本相匹配的文字索引。
在一些實施例中,目標文本集合中的目標文本為目標文字;以及基于索引集合中的文字索引,對目標文本集合和索引集合進行匹配,包括:對目標文本集合中的目標文字和索引集合中的文字索引進行匹配。
在一些實施例中,索引集合還包括詞匯索引,目標文本集合中的目標文本為目標詞匯;以及基于索引集合中的文字索引,對目標文本集合和索引集合進行匹配,包括:對目標文本集合中的目標詞匯和索引集合中的詞匯索引進行匹配;響應于確定目標文本集合中包括未匹配成功的目標詞匯,對未匹配成功的目標詞匯進行切詞處理,獲得目標文字;對所獲得的目標文字和目標文本集合中匹配成功的目標詞匯所對應的索引集合中的文字索引進行匹配。
在一些實施例中,待匹配詞匯所對應的索引集合通過如下步驟得到:對待匹配詞匯進行切詞處理,獲得包括詞匯的處理結(jié)果;對于所獲得的處理結(jié)果中的詞匯,獲取該詞匯的候選詞匯,其中,候選詞匯包括但不限于以下至少一項:同義詞,近義詞;基于待匹配詞匯所對應的處理結(jié)果和候選詞匯,生成待匹配詞匯所對應的索引集合。
在一些實施例中,對于待匹配詞匯集合中的待匹配詞匯,預先設置有該待匹配詞匯所對應的搜索結(jié)果;以及在基于索引集合中的文字索引,對目標文本集合和索引集合進行匹配,以確定出目標待匹配詞匯之后,該方法還包括:將目標待匹配詞匯所對應的搜索結(jié)果確定為目標搜索結(jié)果及輸出。
在一些實施例中,基于索引集合中的文字索引,對目標文本集合和待匹配詞匯集合中的待匹配詞匯所對應的索引集合進行匹配,以確定出目標待匹配詞匯,包括:從目標文本集合中選取目標文本作為待匹配目標文本,以及基于待匹配目標文本和待匹配詞匯集合,執(zhí)行以下確定步驟:對待匹配目標文本和待匹配詞匯集合中的待匹配詞匯所對應的索引集合中的索引進行匹配,以確定出目標索引;確定目標文本集合中是否包括未被選取的目標文本;響應于確定目標文本集合中不包括未被選取的目標文本,將包括目標索引的索引集合所對應的待匹配詞匯確定為目標待匹配詞匯;響應于確定目標文本集合中包括未被選取的目標文本,從未被選取的目標文本中選取目標文本作為待匹配目標文本,基于包括目標索引的索引集合所對應的待匹配詞匯,生成新的待匹配詞匯集合,基于最近一次選取的待匹配目標文本和最近一次生成的待匹配詞匯集合,繼續(xù)執(zhí)行確定步驟。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡技術(北京)有限公司,未經(jīng)百度在線網(wǎng)絡技術(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810585420.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





