[發(fā)明專利]一種情感詞典構(gòu)建方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201210138364.7 | 申請日: | 2012-05-07 |
| 公開(公告)號: | CN102663139A | 公開(公告)日: | 2012-09-12 |
| 發(fā)明(設(shè)計)人: | 李壽山;林莉媛;周國棟 | 申請(專利權(quán))人: | 蘇州大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 情感 詞典 構(gòu)建 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理領(lǐng)域,特別是涉及一種情感詞典構(gòu)建方法及系統(tǒng)。
背景技術(shù)
隨著信息化的迅速普及,網(wǎng)絡(luò)得到了廣泛的應(yīng)用,人們通過論壇、博客和微博等網(wǎng)絡(luò)平臺,能夠發(fā)表對于人物、事件、產(chǎn)品等各種觀點、意見等的文本信息。為了有效處理這些信息,就需要進行文本情感分析,其中,需要進行情感分析的文本被稱為評價語料,而進行情感分析的過程中,很重要的一點就是構(gòu)建情感詞典。
構(gòu)建情感詞典,是文本情感分析過程中的一個基礎(chǔ)任務(wù),在構(gòu)建情感詞典時,詞語的情感極性是情感分類方法的基礎(chǔ),根據(jù)詞語的情感極性,將詞語分為正面詞、負面詞和中性詞三種情感詞,并將具有相同情感極性的詞語匯集在一起,從而完成對情感詞典的構(gòu)建。例如,在中文的詞語集中,將“喜歡”、“好”、“幸福”和“漂亮”等分為正面詞,將“丑”、“厭惡”、“暴力”和“差”等分為負面詞。
現(xiàn)有的構(gòu)建情感詞典的方法,一種是由人工完成,在該種方法中,在給定詞語后,由人工判斷詞語的情感極性;另外一種方法,使用查找現(xiàn)有資源的方法,例如,使用知網(wǎng)資源獲取詞語的情感極性,知網(wǎng)(英文名稱為HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫,工作人員可以通過搜索知網(wǎng)中的資源,獲知給定詞語的情感極性。
但是,發(fā)明人在本申請的研究過程中發(fā)現(xiàn),采用人工判斷詞語的情感極性的方式,會花費大量的人力、物力;而采用查找現(xiàn)有資源的方式,由于資源的有限性,無法包括所有的詞語,對于詞語的情感極性分類效果欠佳,且不能隨時更新詞語,因而獲得詞語的情感極性的正確率不高,進而影響構(gòu)建情感詞典的精度。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種情感詞典構(gòu)建方法,以解決現(xiàn)有技術(shù)中的情感詞典構(gòu)建方法中,所具有的需要花費大量人力、物力,或者精度低的問題,具體實施方案如下:
一種情感詞典構(gòu)建方法,包括:
獲取包含正面詞和負面詞的基礎(chǔ)種子詞詞集;
獲取所述基礎(chǔ)種子詞的同義詞,并將所述同義詞加入到所述基礎(chǔ)種子詞的詞集中,以形成擴展后種子詞詞集;
對評價語料進行分詞處理,以獲取多個詞語,并確定獲取的詞語的詞性;
計算獲取到的詞語與所述擴展后種子詞詞集中的各個種子詞的點互信息量PMI;
根據(jù)所述詞語與各個種子詞的點互信息量PMI,及與所述詞語的詞性對應(yīng)的參數(shù)值,獲取所述詞語的情感傾向值SO;
根據(jù)所述情感傾向值SO,選擇預(yù)設(shè)數(shù)量的詞語,并根據(jù)情感極性,將所選詞語構(gòu)建成包含正面情感詞子詞典和負面情感詞子詞典的情感詞典。
優(yōu)選的,獲取種子詞的同義詞,以獲得擴展后種子詞詞集具體包括:
獲取同義詞詞林;
將所述各個種子詞與所述同義詞詞林中的詞語進行匹配查找,以獲取所述種子詞的同義詞;
將所述同義詞加入基礎(chǔ)種子詞的詞集中,以獲取擴展后種子詞詞集。
優(yōu)選的,計算獲取到的詞語與所述擴展后種子詞詞集中的各個種子詞的點互信息量PMI的方法具體為:
根據(jù)公式進行計算,其中,所述w1和w2分別表示種子詞和所述獲取到的詞語,所述p(w1&w2)表示兩個詞w1和w2共同出現(xiàn)的概率,p(w1)和p(w2)分別代表兩詞各自出現(xiàn)的概率。
優(yōu)選的,獲取所述詞語的情感傾向值SO的方法具體為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué),未經(jīng)蘇州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210138364.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種潛水電機調(diào)壓底座組件
- 下一篇:耐壓地封裝的電機
- 構(gòu)建墊、實體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





