[發(fā)明專利]一種獲取新詞的方法、系統(tǒng)及設(shè)備無效
| 申請?zhí)枺?/td> | 200710122187.2 | 申請日: | 2007-09-21 |
| 公開(公告)號: | CN101119334A | 公開(公告)日: | 2008-02-06 |
| 發(fā)明(設(shè)計)人: | 李偉杰 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;G06F17/20 |
| 代理公司: | 北京匯澤知識產(chǎn)權(quán)代理有限公司 | 代理人: | 王黎延 |
| 地址: | 518044廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 獲取 新詞 方法 系統(tǒng) 設(shè)備 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息提取技術(shù),特別是指一種利用即時通信(IM)系統(tǒng)獲取新詞的方法、系統(tǒng)及實現(xiàn)新詞獲取的即時通信客戶端和服務(wù)器。
背景技術(shù)
隨著信息化、電子化和網(wǎng)絡(luò)化的迅猛發(fā)展和普及,人們每天會從各種通信網(wǎng)絡(luò)、互聯(lián)網(wǎng)絡(luò)接觸或獲取到巨大的信息量;隨著信息的大量傳播以及人們交流內(nèi)容的不斷擴(kuò)展,新的詞匯層出不窮并被廣泛使用。由于詞匯是人們溝通的基礎(chǔ),不斷增加和更新詞庫是非常必要的。目前,新詞獲取在輸入法和網(wǎng)絡(luò)搜索等領(lǐng)域應(yīng)用較多,對于輸入法而言,需要不斷更新自身的數(shù)據(jù)庫,以保證為用戶提供更多的詞匯、更方便的輸入;對于搜索引擎而言,需要隨時更新和擴(kuò)展搜索關(guān)鍵詞,以提高搜索速度。
具體來說,在輸入法方面,現(xiàn)在常用的中文輸入法包括鍵盤輸入和非鍵盤輸入兩類,所謂鍵盤輸入是指利用鍵盤上的26個英文字母,按照一定的編碼規(guī)則輸入漢字,如:拼音輸入、部首輸入、五筆輸入等等;所謂非鍵盤輸入是指利用其他形式輸入漢字,如手寫輸入、語音輸入、光學(xué)字符識別(OCR)技術(shù)輸入等等。但是,這兩類輸入方式對獲取新詞都存在不同程度的問題:鍵盤輸入法,是依據(jù)用戶的輸入頻率和次數(shù)等特征獲取新詞,一般的方式是:先采集輸入信息并將輸入的信息存儲,然后對存儲的信息按預(yù)置規(guī)則進(jìn)行篩選和統(tǒng)計,這樣,雖然能準(zhǔn)確的獲取新詞,但所獲取的新詞僅來源于某個用戶、且僅存儲在該用戶當(dāng)前使用的終端上,并不能面向更多用戶,即使很多新詞是大家都常用的,不同用戶也需要各自通過頻繁輸入分別獲取;而且,對于同一用戶,由于新詞僅存儲在當(dāng)前使用的終端上,那么,更換終端后又需要重新獲取,比如:在辦公室的終端上已得到很多常用的新詞,但在自家的終端上使用所需的新詞時又需要重新獲取。非鍵盤輸入法,很明顯,這類輸入本身是靠設(shè)備或軟件對筆跡、聲音、光學(xué)字符的識別完成漢字的輸入,并不能保證較高的識別準(zhǔn)確度,那么,在這種識別程度上獲取新詞,很可能得到錯誤的詞匯或并非所需的詞匯,因此很難達(dá)到獲取新詞的真正目的。在網(wǎng)絡(luò)搜索方面,新詞的獲取是將采集到的所有網(wǎng)絡(luò)用戶輸入的關(guān)鍵詞,匯集到網(wǎng)絡(luò)服務(wù)器上存儲,之后再進(jìn)行統(tǒng)計和提取。但是,由于新詞的不斷出現(xiàn),且分散在不同的語料庫中,很難及時、有效地識別與更新;而且,現(xiàn)有技術(shù)通常會采用人工參與收集、整理和辨別新詞的方式,再將得到的新詞加入已有詞庫中,如此,不僅耗費時間、成本,且工作效率很低。
可以看出,現(xiàn)有技術(shù)獲取新詞的途徑相對較少,主要是對用戶輸入和查詢關(guān)鍵詞進(jìn)行收集和統(tǒng)計,進(jìn)而獲取到新詞,目前并未將其它信息來源作為新詞的獲取源。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種獲取新詞的方法,能基于即時通信的詞源簡單、有效、實時地自動獲取新詞,并能使所獲取的新詞適用范圍更廣。
本發(fā)明的另一目的在于提供一種獲取新詞的系統(tǒng)及設(shè)備,能支持基于即時通信的新詞自動獲取方式,實現(xiàn)簡單方便、靈活有效。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
本發(fā)明提出了一種獲取新詞的方法,包括:
A、從聊天數(shù)據(jù)中獲取備選字符串;
B、根據(jù)預(yù)置規(guī)則對所得到的備選字符串進(jìn)行篩選,將經(jīng)過篩選后的詞作為新詞。
步驟A中,所述的獲取為:獲取本端輸入的聊天數(shù)據(jù);或為獲取接收到的對端的聊天數(shù)據(jù),其中,所述對端為一個或一個以上。
所述聊天數(shù)據(jù)為本端輸入的聊天數(shù)據(jù);則步驟A具體為:
IM客戶端軟件接收當(dāng)前用戶通過輸入法輸入的數(shù)據(jù)信息,在將輸入數(shù)據(jù)作為聊天記錄顯示于即時通信界面的同時,將當(dāng)前的輸入信息作為備選字符串;
或者,所述聊天數(shù)據(jù)為來自對端的聊天數(shù)據(jù);則步驟A具體為:
IM客戶端軟件接收對端發(fā)來的數(shù)據(jù)信息,在將接收的數(shù)據(jù)信息作為聊天記錄顯示于即時通信界面的同時,將收到的數(shù)據(jù)信息作為備選字符串。
步驟A與步驟B之間進(jìn)一步包括:將備選字符串劃分為一個或一個以上的詞;則步驟B根據(jù)預(yù)置規(guī)則對所得到的詞進(jìn)行篩選。
步驟B所述篩選后進(jìn)一步包括:統(tǒng)計并判斷經(jīng)過篩選的詞在指定位置出現(xiàn)的次數(shù)是否達(dá)到設(shè)定閾值,如果達(dá)到,則將相應(yīng)詞作為新詞;否則不作為新詞。其中,所述指定位置為互聯(lián)網(wǎng)數(shù)據(jù),或為來自本端或?qū)Χ说牧奶煊涗洝?/p>
上述方案中,該方法進(jìn)一步包括:將獲取的新詞并入各種輸入法的數(shù)據(jù)庫。
上述方案中,所述步驟A和步驟B由IM客戶端完成,該方法進(jìn)一步包括:IM客戶端將獲取的新詞通過即時通信系統(tǒng)發(fā)送給對端用戶。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710122187.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





