[發(fā)明專利]用于監(jiān)視文本信息的字典創(chuàng)建裝置、用于監(jiān)視文本信息的字典創(chuàng)建方法和用于監(jiān)視文本信息的字典創(chuàng)建程序在審
| 申請(qǐng)?zhí)枺?/td> | 201380050748.6 | 申請(qǐng)日: | 2013-09-26 |
| 公開(公告)號(hào): | CN104685493A | 公開(公告)日: | 2015-06-03 |
| 發(fā)明(設(shè)計(jì))人: | 大西貴士;土田正明;石川開 | 申請(qǐng)(專利權(quán))人: | 日本電氣株式會(huì)社 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27;G06F17/30 |
| 代理公司: | 中原信達(dá)知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 韓峰;孫志湧 |
| 地址: | 日本*** | 國(guó)省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 監(jiān)視 文本 信息 字典 創(chuàng)建 裝置 方法 程序 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及用于監(jiān)視文本信息的字典創(chuàng)建裝置、用于監(jiān)視文本信息的字典創(chuàng)建方法和用于監(jiān)視文本信息的字典創(chuàng)建程序。具體而言,本發(fā)明涉及這樣的用于監(jiān)視文本信息的字典創(chuàng)建裝置、用于監(jiān)視文本信息的字典創(chuàng)建方法和用于監(jiān)視文本信息的字典創(chuàng)建程序,通過其使得即使對(duì)未知文本也能生成高精度地監(jiān)視文本信息的字典。
背景技術(shù)
為監(jiān)視互聯(lián)網(wǎng)上的謠言等等,檢測(cè)出現(xiàn)在大量文本中的作為監(jiān)視對(duì)象的信息內(nèi)容的文本信息監(jiān)視技術(shù)變得很重要。在本發(fā)明中采用的文本信息監(jiān)視系統(tǒng)在字典的基礎(chǔ)上,監(jiān)視文本信息。換句話說,作為文本信息監(jiān)視技術(shù),使用基于字典的技術(shù),其中,在用于監(jiān)視文本信息的字典中保存檢測(cè)條件,并且檢測(cè)輸入文檔中的表述是否與用于監(jiān)視文本信息的字典中的條件匹配。
在基于字典的技術(shù)中,通過使用高精度字典,能高精度地監(jiān)視文本信息。由此,使用高精度字典很重要。
在基于字典的文本信息監(jiān)視系統(tǒng)中生成具有內(nèi)省的字典費(fèi)時(shí)、易于導(dǎo)致遺漏,因此很困難。由此,期望一種這樣的技術(shù),其中,提供采集包括作為監(jiān)視對(duì)象的信息內(nèi)容的文檔的正例集合、以及采集不包括針對(duì)監(jiān)視對(duì)象的信息內(nèi)容的文檔的反例集合,來自動(dòng)地從這些集合提取登記為檢測(cè)條件的表述。這種方法的常見技術(shù)包括特征詞提取技術(shù)。特征詞提取技術(shù)是比較正例集合和反例集合來將特征性地出現(xiàn)在正例集合中的詞提取為特征詞的技術(shù)。
這種技術(shù)的示例是PTL?1。在PTL?1中,當(dāng)構(gòu)造被用在文本挖掘中的字典時(shí),將作為分析對(duì)象的文檔數(shù)據(jù)分成組,并且將特征性地出現(xiàn)在每一組中的表述用作字典候選。
[引用清單]
[專利文獻(xiàn)]
[PTL?1]:日本專利公開號(hào)No.2009-015394
發(fā)明內(nèi)容
[技術(shù)問題]
然而,在現(xiàn)有技術(shù)中,通過以詞或修飾級(jí)的短單位的特征詞提取技術(shù)不能充分地滿足文本信息監(jiān)視系統(tǒng)的性能需求。這是因?yàn)閮H通過以詞或修飾級(jí)的短單位會(huì)降低檢測(cè)精度。例如,即使將一個(gè)詞“病毒”登記在用于監(jiān)視文本信息的字典中以便檢測(cè)有關(guān)計(jì)算機(jī)病毒的描述,會(huì)錯(cuò)誤檢測(cè)包括例如“感冒病毒”的文檔。在這種情況下,有必要將包括一個(gè)以上的詞的短語,諸如“計(jì)算機(jī)病毒”或“病毒郵件”登記在用于監(jiān)視文本信息的字典中。
如上所述,最佳短語長(zhǎng)度取決于想檢測(cè)什么,因此,不可能預(yù)先將該長(zhǎng)度判定為唯一值。由此,為了處理具有可變長(zhǎng)度的短語,需要將具有任意長(zhǎng)度的短語提取為候選并且計(jì)算每一短語的特征度。此外,不可能適當(dāng)?shù)靥幚硪韵嗤卣鞫容敵鱿嗷ブ丿B的多個(gè)短語的情形。
例如,提取圖4中所示的短語,并且當(dāng)給出在圖3中所示的正反例集合時(shí),通過針對(duì)具有各種長(zhǎng)度的短語來執(zhí)行特征詞提取,以相同特征度(=3)提取“特洛伊木馬”、“特洛伊”和“木馬”。然而,盡管“特洛伊”或“木馬”均未出現(xiàn)在反例集合中,但由于能想到與病毒無關(guān)的諸如“特洛伊遺址”和“旋轉(zhuǎn)木馬”的表述,登記在用于監(jiān)視文本信息的字典中的“特洛伊”和“木馬”導(dǎo)致較低檢測(cè)精度。理論上,反例集合中出現(xiàn)諸如“特洛伊遺址”或“旋轉(zhuǎn)木馬”的表述會(huì)導(dǎo)致諸如“特洛伊”或“木馬”的表述的較低特征度并且還導(dǎo)致較低檢測(cè)精度。然而,實(shí)際上,很少獲得具有足夠數(shù)量的反例集合,因此,如上所述的這種問題經(jīng)常發(fā)生。
在PTL?1中,公開了將與特征詞搭配的詞也視作字典登記候選的技術(shù),然而,在是否執(zhí)行字典登記的判定中,使用諸如TF(Term?Frequency)(詞頻)和IDF(Inverse?Document?Frequency)(逆文檔頻率)的乘積的指標(biāo),但是對(duì)相互重疊的多個(gè)短語,則認(rèn)為存在上述問題。
如上所述,通過由正例集合和反例集合計(jì)算的特征度構(gòu)成用于監(jiān)視文本信息的字典的現(xiàn)有技術(shù)具有導(dǎo)致較低檢測(cè)精度的問題。
本發(fā)明要解決上述問題并且提供用于監(jiān)視文本信息的字典生成裝置、用于監(jiān)視文本信息的字典生成方法和用于監(jiān)視文本信息的字典生成程序,使得與現(xiàn)有技術(shù)相比,可以實(shí)現(xiàn)高精度檢測(cè)。
[技術(shù)方案]
要解決上述問題的本發(fā)明是一種用于監(jiān)視文本信息的字典生成裝置,其用在文本信息監(jiān)視系統(tǒng)中,并且生成登記檢測(cè)條件的字典,其包括:特征度計(jì)算單元,對(duì)作為檢測(cè)條件的候選的短語,計(jì)算表示該短語與作為監(jiān)視對(duì)象的信息內(nèi)容匹配的程度的特征度;以及短語有用度判定單元,基于特征度和表示由該短語限定的含義的少許模糊度的有用度,判定短語是否適合檢測(cè)條件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于日本電氣株式會(huì)社;,未經(jīng)日本電氣株式會(huì)社;許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380050748.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 網(wǎng)絡(luò)監(jiān)視系統(tǒng)及方法
- 監(jiān)視系統(tǒng)
- 篡改監(jiān)視系統(tǒng)、管理裝置及篡改管理方法
- 核電廠數(shù)字化主控室操作員監(jiān)視行為可靠性判定方法
- 網(wǎng)絡(luò)狀態(tài)監(jiān)視系統(tǒng)
- 監(jiān)視系統(tǒng)、監(jiān)視裝置、監(jiān)視對(duì)象裝置以及監(jiān)視方法
- 一種監(jiān)視系統(tǒng)
- 監(jiān)視裝置、監(jiān)視系統(tǒng)、監(jiān)視方法
- 被監(jiān)視者監(jiān)視系統(tǒng)的顯示裝置及其顯示方法以及被監(jiān)視者監(jiān)視系統(tǒng)
- 一種分布式協(xié)同監(jiān)視方法、監(jiān)視平臺(tái)及存儲(chǔ)介質(zhì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





