[發(fā)明專利]用于生成信息的方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201810044255.6 | 申請(qǐng)日: | 2018-01-17 |
| 公開(公告)號(hào): | CN108256070B | 公開(公告)日: | 2022-07-15 |
| 發(fā)明(設(shè)計(jì))人: | 鄭杰鵬;余淼;楊仁凱;張一麟;吳家林 | 申請(qǐng)(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號(hào): | G06F16/9532 | 分類號(hào): | G06F16/9532;G06F16/35 |
| 代理公司: | 北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 生成 信息 方法 裝置 | ||
本申請(qǐng)實(shí)施例公開了用于生成信息的方法和裝置。該方法的一具體實(shí)施方式包括:提取預(yù)設(shè)時(shí)間段內(nèi)的搜索數(shù)據(jù);從該搜索數(shù)據(jù)中確定出多個(gè)目標(biāo)搜索句;確定各個(gè)目標(biāo)搜索句中的實(shí)體的屬性;對(duì)于該多個(gè)目標(biāo)搜索句所涉及的每一個(gè)實(shí)體,按包含該實(shí)體的目標(biāo)搜索句中的屬性對(duì)包含該實(shí)體的目標(biāo)搜索句進(jìn)行聚類,基于聚類后的每一類中的目標(biāo)搜索句的搜索次數(shù)之和,確定該實(shí)體的目標(biāo)屬性。該實(shí)施方式實(shí)現(xiàn)了靈活的信息生成。
技術(shù)領(lǐng)域
本申請(qǐng)實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及用于生成信息的方法和裝置。
背景技術(shù)
在互聯(lián)網(wǎng)搜索中,有一部分問答搜索可以用實(shí)體與屬性相結(jié)合的形式進(jìn)行描述。其中,實(shí)體可以是實(shí)體可以是表征概念、事物或者事件的信息。例如,“華盛頓”、“西雅圖”、“海灣戰(zhàn)爭”、“宇宙大爆炸理論”、“劉某”等。屬性是可以反映實(shí)體的特征或與實(shí)體有關(guān)的信息,例如,若實(shí)體為“關(guān)節(jié)炎”,則屬性的實(shí)例可以包括“治療”、“詢價(jià)”等。為了滿足這類問答需求,通常需要挖掘各個(gè)實(shí)體以及實(shí)體的屬性。
現(xiàn)有的方式通常是根據(jù)百科或者垂直網(wǎng)站挖掘?qū)嶓w及實(shí)體的屬性,這種方案需要有權(quán)威的垂直網(wǎng)站,并且要求網(wǎng)站實(shí)體屬性比較全面。現(xiàn)有的另一種方式通常根據(jù)實(shí)體所屬垂類,人工定義實(shí)體的常見屬性。然而,現(xiàn)有方式均無法從所挖掘的實(shí)體的屬性中確定出目標(biāo)屬性(例如用戶搜索次數(shù)較多或較為關(guān)心的熱門屬性、用戶搜索次數(shù)較少或較不關(guān)心的冷門屬性等)。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例提出了用于生成信息的方法和裝置。
第一方面,本申請(qǐng)實(shí)施例提供了一種用于生成信息的方法,該方法包括:提取預(yù)設(shè)時(shí)間段內(nèi)的搜索數(shù)據(jù);從搜索數(shù)據(jù)中確定出多個(gè)目標(biāo)搜索句,其中,目標(biāo)搜索句為包括預(yù)設(shè)的實(shí)體列表中的實(shí)體的搜索句;確定各個(gè)目標(biāo)搜索句中的實(shí)體的屬性;對(duì)于多個(gè)目標(biāo)搜索句所涉及的每一個(gè)實(shí)體,按包含該實(shí)體的目標(biāo)搜索句中的屬性對(duì)包含該實(shí)體的目標(biāo)搜索句進(jìn)行聚類,基于聚類后的每一類中的目標(biāo)搜索句的搜索次數(shù)之和,確定該實(shí)體的目標(biāo)屬性。
在一些實(shí)施例中,在基于聚類后的每一類中的目標(biāo)搜索句的搜索次數(shù)之和,確定該實(shí)體的目標(biāo)屬性之后,該方法還包括:對(duì)于多個(gè)目標(biāo)搜索句所涉及的每一個(gè)實(shí)體,確定該實(shí)體的目標(biāo)屬性的屬性值,并將該實(shí)體的目標(biāo)屬性、該實(shí)體的目標(biāo)屬性的屬性值存儲(chǔ)至數(shù)據(jù)庫中。
在一些實(shí)施例中,從搜索數(shù)據(jù)中確定出多個(gè)目標(biāo)搜索句,包括:對(duì)搜索數(shù)據(jù)中的搜索句進(jìn)行去重處理,統(tǒng)計(jì)去重處理后的每一個(gè)搜索句在搜索數(shù)據(jù)中的搜索次數(shù);從去重后的搜索句中確定出多個(gè)目標(biāo)搜索句,其中,目標(biāo)搜索句為包括預(yù)設(shè)的實(shí)體列表中的實(shí)體的搜索句。
在一些實(shí)施例中,在提取預(yù)設(shè)時(shí)間段內(nèi)的搜索數(shù)據(jù)之前,該方法還包括:從預(yù)置的歷史搜索數(shù)據(jù)中確定出標(biāo)準(zhǔn)搜索句,其中,標(biāo)準(zhǔn)搜索句為由實(shí)體列表中的任一實(shí)體和與該實(shí)體對(duì)應(yīng)的預(yù)置標(biāo)準(zhǔn)屬性列表中的任一標(biāo)準(zhǔn)屬性構(gòu)成的搜索句;對(duì)于所確定的每一個(gè)標(biāo)準(zhǔn)搜索句,從歷史搜索數(shù)據(jù)中確定出該標(biāo)準(zhǔn)搜索句的共現(xiàn)搜索句,將共現(xiàn)搜索句中的實(shí)體之外的內(nèi)容確定為該標(biāo)準(zhǔn)搜索句中的標(biāo)準(zhǔn)屬性的泛化屬性,其中,共現(xiàn)搜索句為用戶搜索后最后點(diǎn)擊的搜索結(jié)果項(xiàng)對(duì)應(yīng)的頁面與用戶使用該標(biāo)準(zhǔn)搜索句搜索后最后點(diǎn)擊的搜索結(jié)果項(xiàng)對(duì)應(yīng)的頁面相同時(shí)所使用的搜索句。
在一些實(shí)施例中,對(duì)于多個(gè)目標(biāo)搜索句所涉及的每一個(gè)實(shí)體,按包含該實(shí)體的目標(biāo)搜索句中的屬性對(duì)包含該實(shí)體的目標(biāo)搜索句進(jìn)行聚類,包括:將各個(gè)目標(biāo)搜索句中的實(shí)體的屬性分別與相應(yīng)的預(yù)置標(biāo)準(zhǔn)屬性列表中的每一個(gè)標(biāo)準(zhǔn)屬性和該標(biāo)準(zhǔn)屬性的各個(gè)泛化屬性進(jìn)行匹配;對(duì)于多個(gè)目標(biāo)搜索句所涉及的每一個(gè)實(shí)體,以每一個(gè)標(biāo)準(zhǔn)屬性和該標(biāo)準(zhǔn)屬性的泛化屬性作為一類,按屬性的匹配結(jié)果對(duì)包含該實(shí)體的目標(biāo)搜索句進(jìn)行聚類。
在一些實(shí)施例中,基于聚類后的每一類中的目標(biāo)搜索句的搜索次數(shù)之和,確定該實(shí)體的目標(biāo)屬性,包括:確定聚類后的每一類中的目標(biāo)搜索句的搜索次數(shù)之和;將所確定的搜索次數(shù)之和的最大值所對(duì)應(yīng)的標(biāo)準(zhǔn)屬性確定為該實(shí)體詞的目標(biāo)屬性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810044255.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





