[發(fā)明專利]用戶需求獲取方法有效
| 申請?zhí)枺?/td> | 201210436032.7 | 申請日: | 2012-11-05 |
| 公開(公告)號: | CN103793444A | 公開(公告)日: | 2014-05-14 |
| 發(fā)明(設(shè)計)人: | 朱利民 | 申請(專利權(quán))人: | 江蘇蘇大大數(shù)據(jù)科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州華進聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 何平 |
| 地址: | 215000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用戶 需求 獲取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種用戶需求獲取方法。
背景技術(shù)
自互聯(lián)網(wǎng)誕生以來,因特網(wǎng)已經(jīng)發(fā)展成為擁有近億用戶和數(shù)億頁面的巨大的全球信息倉庫,而且其信息量仍在以指數(shù)形式飛速地增長。從互聯(lián)網(wǎng)中獲取信息已經(jīng)成為個人獲取知識的主要方法和重要手段,也成為當(dāng)前企業(yè)獲取情報的重要途徑,但是,面對浩如煙海的網(wǎng)絡(luò)信息,傳統(tǒng)的人工搜集和處理方法都已難以勝任,搜索結(jié)果通常包括很多與用戶需求相關(guān)性不大的信息,因此如何準(zhǔn)確獲取用戶的需求是一個關(guān)鍵的問題。
目前,國內(nèi)外在信息搜索領(lǐng)域已經(jīng)做了大量研究,并開發(fā)了多種搜索引擎,如百度、谷歌以及雅虎等。從某種程度上這些搜索引擎提高了搜索的效率和速度,但獲取用戶需求的方法仍然存在著很大的局限性,最突出表現(xiàn)在以下幾個方面:首先,由于采用的是全文檢索或關(guān)鍵詞檢索方式,基于字面的檢索機制造成實際檢索結(jié)果與用戶需求之間的偏差,即檢索返回“有用”信息太少,“垃圾”信息太多;其次,網(wǎng)絡(luò)搜索引擎需面對廣泛的知識領(lǐng)域,而針對某一特殊領(lǐng)域因沒有足夠的背景知識,導(dǎo)致搜索到大量無關(guān)的網(wǎng)頁,具有較大相關(guān)性的網(wǎng)頁卻很少。
發(fā)明內(nèi)容
基于此,針對網(wǎng)絡(luò)信息的搜索,有必要提供一種準(zhǔn)確獲取用戶需求的方法。
一種用戶需求獲取方法,依次包括以下步驟:
獲取用戶提供的種子詞,所述種子詞包括正種子詞和負種子詞;
關(guān)鍵詞擴展步驟,利用同義詞集合以及上下義關(guān)系,對所述種子詞擴展,得到與正種子詞相關(guān)的正相關(guān)關(guān)鍵詞以及與負種子詞相關(guān)的反相關(guān)關(guān)鍵詞;
搜索步驟,根據(jù)所述正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞,基于互聯(lián)網(wǎng)進行匹配搜索,得到待標(biāo)注網(wǎng)頁,所述待標(biāo)注網(wǎng)頁包括候選正例和候選反例,所述候選正例和候選反例分別由所述正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞搜索得到;
網(wǎng)頁挑選步驟,分析所述待標(biāo)注網(wǎng)頁,根據(jù)其內(nèi)容將待標(biāo)注網(wǎng)頁分類,然后從每類網(wǎng)頁中分別選出一個樣本網(wǎng)頁供用戶標(biāo)注;
標(biāo)注步驟,如果樣本網(wǎng)頁符合用戶的需求,將該樣本網(wǎng)頁標(biāo)注為正例,如果樣本網(wǎng)頁不符合用戶的需求,將該樣本網(wǎng)頁標(biāo)注為反例,集合所述正例和反例,得到初始用戶標(biāo)注數(shù)據(jù)集;
評價步驟,采用SVM分類器訓(xùn)練法,將從所述候選正例和候選反例中選出的所有樣本網(wǎng)頁作為測試集,將所有非樣本網(wǎng)頁作為訓(xùn)練集,對待標(biāo)注網(wǎng)頁分類的準(zhǔn)確性進行測試,得到分類的準(zhǔn)確率,預(yù)先設(shè)定閾值,當(dāng)所述分類的準(zhǔn)確率達到所述閾值時,所述評價步驟完成,當(dāng)所述分類的準(zhǔn)確率未達到所述閾值時,返回所述網(wǎng)頁挑選步驟,調(diào)整需要標(biāo)注的正例和反例的數(shù)量,重復(fù)標(biāo)注步驟和評價步驟,最終得到正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集。
學(xué)習(xí)步驟,基于所述正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集,學(xué)習(xí)用戶需求,得到用戶的需求模型。
在其中一個實施例中,在所述關(guān)鍵詞擴展步驟中,所述同義詞集合以及上下義關(guān)系由wordnet提供。
在其中一個實施例中,所述標(biāo)注步驟之后還包括從得到的所述正例和反例中抽取特征詞,生成正相關(guān)關(guān)鍵詞和反相關(guān)關(guān)鍵詞,進一步擴展所述種子詞的步驟。
在其中一個實施例中,在所述標(biāo)注步驟中,所述樣本網(wǎng)頁的標(biāo)注由用戶通過人機交互界面完成。
在其中一個實施例中,在所述標(biāo)注步驟中,需要標(biāo)注的所述正例和反例的初始數(shù)量相等。
在其中一個實施例中,在所述評價步驟中,所述需要標(biāo)注的正例和反例的數(shù)量如下:
正例的數(shù)量=用戶標(biāo)注網(wǎng)頁的總數(shù)*(當(dāng)前反例的比例+當(dāng)前分類錯誤中反例的比例)/2;
反例的數(shù)量=用戶標(biāo)準(zhǔn)網(wǎng)頁的總數(shù)*(當(dāng)前正例的比例+當(dāng)前分類錯誤中正例的比例)/2。
上述計算方法中,反例的比例指反例占正例和反例總量的比例,正例的比例指正例占正例和反例總量的比例,分類錯誤中反例比例指經(jīng)SVM分類器訓(xùn)練后,所述訓(xùn)練集中被誤認(rèn)為反例的比例,分類錯誤中正例比例指經(jīng)SVM分類器訓(xùn)練后,所述訓(xùn)練集中被誤認(rèn)為正例的比例。
在其中一個實施例中,所述學(xué)習(xí)步驟包括:
主題句學(xué)習(xí)步驟,預(yù)先設(shè)置主題特征搜索樹,首先從所述正例和反例數(shù)量均衡的用戶標(biāo)注數(shù)據(jù)集中抽取主題得到主題數(shù)據(jù)集,其次從所述主題數(shù)據(jù)集中抽取主題句特征,最后進行主題需求判斷,如果當(dāng)前的主題特征搜索樹不包括所述抽取的主題特征,則將所述抽取的主題特征加入所述主題特征搜索樹,得到用戶的主題監(jiān)控模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇蘇大大數(shù)據(jù)科技有限公司,未經(jīng)江蘇蘇大大數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210436032.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 需求控制系統(tǒng)、需求控制器、需求程序以及需求控制方法
- 需求控制裝置、需求控制系統(tǒng)以及需求控制程序
- 需求響應(yīng)方法和需求響應(yīng)系統(tǒng)
- 需求預(yù)測裝置、需求預(yù)測方法以及需求預(yù)測程序
- 電力需求調(diào)整系統(tǒng)、電力需求調(diào)整裝置及電力需求調(diào)整方法
- 軟件需求審核方法以及需求審核系統(tǒng)
- 電力需求控制裝置、電力需求控制方法及電力需求控制系統(tǒng)
- 電力需求控制裝置及電力需求控制方法
- 需求監(jiān)視裝置、需求監(jiān)視系統(tǒng)、需求監(jiān)視方法和需求監(jiān)視程序
- 需求管理方法和需求管理系統(tǒng)





