[發(fā)明專利]語義情感分類特征值提取方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201310459413.1 | 申請(qǐng)日: | 2013-09-30 |
| 公開(公告)號(hào): | CN103559174A | 公開(公告)日: | 2014-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 鄒存璐;劉長(zhǎng)虹;王菊;孟令勝 | 申請(qǐng)(專利權(quán))人: | 東軟集團(tuán)股份有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 北京鴻元知識(shí)產(chǎn)權(quán)代理有限公司 11327 | 代理人: | 陳英俊 |
| 地址: | 110179 遼*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語義 情感 分類 特征值 提取 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能及識(shí)別技術(shù)領(lǐng)域,更為具體地,涉及一種語義情感分類特征值提取方法及系統(tǒng)。
背景技術(shù)
大數(shù)據(jù)是目前一個(gè)非常熱門的討論話題,從互聯(lián)網(wǎng)的機(jī)器實(shí)時(shí)采集的監(jiān)測(cè)數(shù)據(jù),到互聯(lián)網(wǎng)上用戶產(chǎn)生的海量的內(nèi)容數(shù)據(jù),都是大數(shù)據(jù)覆蓋的內(nèi)容。
大數(shù)據(jù)最核心的價(jià)值是:利用數(shù)學(xué)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、自然語言處理等技術(shù),從大數(shù)據(jù)中挖掘出有價(jià)值的信息知識(shí),從而能夠?qū)κ挛镞M(jìn)行預(yù)測(cè)。由于web2.0的迅猛發(fā)展,用戶在互聯(lián)網(wǎng)上產(chǎn)生大量的內(nèi)容文本信息,例如互聯(lián)網(wǎng)上的社會(huì)化媒體(社交網(wǎng)站、社區(qū)等)數(shù)據(jù)(評(píng)論、社交關(guān)系、地理位置等信息)。對(duì)文本信息進(jìn)行分析挖掘都離不開自然語言處理技術(shù),而其中文本分類問題是最為常見也是應(yīng)用范圍最廣的,從垃圾郵件自動(dòng)識(shí)別到當(dāng)下熱門的語義情分分析,都離不開文本分類算法。
文本分類主流的方法之一是采用機(jī)器學(xué)習(xí)技術(shù)(例如樸素貝葉斯,支持向量機(jī)等)對(duì)訓(xùn)練樣本進(jìn)行特征信息提取學(xué)習(xí),而在這里特征值的選取尤為重要,特征值選取好壞會(huì)直接影響機(jī)器學(xué)習(xí)方法最后的準(zhǔn)確率。
對(duì)于特征值的提取,目前主要有兩種方法。例如在情感分析中,主要采用基于字典以及利用互信息迭代自動(dòng)獲取特征值兩種方法,基于字典的方法需要大量人工整理出跟情感表達(dá)相關(guān)的詞語,這種方法在應(yīng)用互聯(lián)網(wǎng)領(lǐng)域有很大的局限性,因?yàn)榛ヂ?lián)網(wǎng)領(lǐng)域的新詞更新很快,人工很難及時(shí)更新詞典。對(duì)于采用互信息迭代計(jì)算的方法,一般是人工選取一定的種子詞語(數(shù)量大概為10個(gè)左右),然后計(jì)算樣本集中詞語跟種子詞語的互信息,并選取互信息較高的新詞更新到種子詞語集中,并反復(fù)迭代,直到種子詞語集包含的詞語數(shù)量較為穩(wěn)定。
圖1示出了現(xiàn)有獲取情感詞語的方法流程。如圖1所示,獲取情感詞語的具體流程包括:人工選取種子詞語,通過獲取語料庫(kù)中的評(píng)價(jià)信息進(jìn)行中文分詞,然后計(jì)算中文分詞后獲取的詞語跟人工選取的種子詞語的互信息;選取互信息較高的新詞更新到種子詞庫(kù)中,并反復(fù)迭代,直到種子詞庫(kù)中包含的詞語數(shù)量較為穩(wěn)定為止。
上述方法雖然做到了自動(dòng)獲取情感詞語,但是卻存在以下幾點(diǎn)問題:
1)由于需要多次迭代以及大量的比較計(jì)算(隨著種子詞庫(kù)的增加計(jì)算成倍增加)的方式,對(duì)于處理海量的互聯(lián)網(wǎng)數(shù)據(jù)效率很低。
2)在不同應(yīng)用場(chǎng)景下,詞語的詞性會(huì)有不同的詮釋,而種子詞選取上往往依賴于個(gè)人經(jīng)驗(yàn),種子詞語的質(zhì)量對(duì)后續(xù)的迭代計(jì)算會(huì)產(chǎn)生巨大的影響,直接影響最終特征值選取的好壞。
3)通過PMI(Pointwise?Mutual?Information,之前的互信息)互信息來擴(kuò)展種子詞的方法,離不開閾值的確定,一般迭代計(jì)算方法都是采用統(tǒng)一的經(jīng)驗(yàn)閾值來確定,但是由于多次迭代過程中,種子詞庫(kù)數(shù)量的增加,都會(huì)影響PMI值的閾值變化,造成每次迭代選取出的特征值質(zhì)量不一致。
因此,亟需一種能夠降低計(jì)算復(fù)雜度、提高語義情感分析準(zhǔn)確度的情感詞語獲取技術(shù)。
發(fā)明內(nèi)容
鑒于上述問題,本發(fā)明的目的是提供一種語義情感分類特征值提取方法及系統(tǒng),以解決獲取特征值計(jì)算復(fù)雜度高和語義情感分析的準(zhǔn)確度不穩(wěn)定的問題。
本發(fā)明提供一種語義情感分類特征值提取方法,包括:
通過爬取互聯(lián)網(wǎng)用戶的評(píng)價(jià)信息獲取分類語料庫(kù),其中,分類語料庫(kù)包括自然語言描述文本和類別信息,
根據(jù)中文分詞算法將自然語言描述文本的段落句子拆分為詞語;
根據(jù)分類語料庫(kù)的類別信息,計(jì)算詞語與類別信息之間的類別PMI互信息;
根據(jù)類別PMI互信息與類別信息之間的線性相關(guān)的特性獲得PMI斜率值,并根據(jù)PMI斜率值判斷詞語的情感詞性;
根據(jù)預(yù)設(shè)的PMI斜率值的閾值提取具有情感傾向的詞語作為自然語言描述文本的語義情感分類特征值。
此外,優(yōu)選的方案是,中文分詞中采用的算法包括:最大匹配法、最大均詞長(zhǎng)法和最小方差法。
此外,優(yōu)選的方案是,類別PMI互信息計(jì)算公式為:
其中,p(t∧c)為詞語t和類別c同時(shí)出現(xiàn)的概率,p(t)為詞語出現(xiàn)的概率,p(c)為類別c出現(xiàn)的概率。
此外,優(yōu)選的方案是,類別PMI互信息與類別信息之間通過線性擬合方法獲得PMI斜率值,擬合的方法計(jì)算出線性函數(shù)y=ax+b中的變量a和b,
其中,變量a為PMI斜率值,變量a和b可以通過以下公式獲得:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團(tuán)股份有限公司,未經(jīng)東軟集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310459413.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





