[發(fā)明專利]獲取評價單元、建立句法路徑詞典的方法、裝置及系統(tǒng)無效
| 申請?zhí)枺?/td> | 200910082342.1 | 申請日: | 2009-04-14 |
| 公開(公告)號: | CN101866336A | 公開(公告)日: | 2010-10-20 |
| 發(fā)明(設(shè)計)人: | 王震;張翼;陳儒;高立琦;劉桂平 | 申請(專利權(quán))人: | 華為技術(shù)有限公司;問天(北京)信息技術(shù)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京三高永信知識產(chǎn)權(quán)代理有限責任公司 11138 | 代理人: | 何文彬 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 獲取 評價 單元 建立 句法 路徑 詞典 方法 裝置 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計算機領(lǐng)域,特別涉及一種獲取評價單元、建立句法路徑詞典的方法、裝置及系統(tǒng)。
背景技術(shù)
情感分析(Sentiment?Analysis)主要是針對主觀性文本單元,例如篇章、句子、短語、詞語等,自動獲取有用的意見信息和相關(guān)知識。情感分析主要是通過獲取情感句中的評價單元,來識別出情感句的褒義、中性還是貶義。其中,評價單元是極性詞和目標詞的搭配對,極性詞(Polarity?Word)是表示情感傾向性的詞語,目標詞(Target?Word)是極性詞所修飾的某種產(chǎn)品或事件的屬性,如在音樂領(lǐng)域,目標詞可以為“節(jié)奏”、“嗓音”等;在汽車領(lǐng)域,目標詞可以為“方向盤”、“座椅”等。因此,評價單元是體現(xiàn)情感句褒貶義的一個重要元素。在實際應(yīng)用中,如何獲取評價單元是進行情感分析的重要組成部分。
為了獲取評價單元,現(xiàn)有技術(shù)提供了如下兩種方法:
第一種方法是使用特殊的共現(xiàn)模板半自動地獲取評價單元。該方法定義評價單元為三元組(Subject,Attribute,Value),將評價單元的每個元素作為共現(xiàn)模板的槽值,通過共現(xiàn)模塊從待分析的情感句中匹配評價單元的三個元素。例如一個共現(xiàn)模塊:<Attribute>of<Subject>is<Value>,待分析的情感句為The?picture?of?this?camera?is?great,對該句子使用共現(xiàn)模板進行匹配來抽取三元組,分別為(this?camera,the?picture,great)。該方法需要構(gòu)建Subject、Attribute以及Value三個詞典,為每個詞典手工挑選種子詞語進行初始化以及挑選了8個出現(xiàn)頻率較高的共現(xiàn)模板。首先,生成Attribute和Value;其次,通過人工篩選生成的Attribute和Value,將篩選過后的正確的Attribute和Value放入到各自的詞典中。
第二種方法是通過研究評價單元二元組(極性詞,目標詞)來獲取評價單元。該方法首先需要建立三個詞典,第一個詞典是極性詞詞典,第二個詞典是通過手工搜集得到的目標詞詞典,第三個詞典是通過手工創(chuàng)建的鏈接說明詞典,其中,鏈接說明詞典主要是句法關(guān)系的描述。該方法通過使用極性詞詞典和目標詞詞典,在情感句中標注其所含有的極性詞和目標詞,使用鏈接說明詞典,根據(jù)每一對極性詞和目標詞的句法關(guān)系來判斷他們是否是正確的搭配對,從而獲取評價單元。
在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
第一種方法共現(xiàn)模板種類較為單一,涵蓋面較窄,從而導(dǎo)致召回率低;選擇過程需要進行人工篩選。
第二種方法容易遺漏一些類型的句法關(guān)系,從而導(dǎo)致召回率低;構(gòu)建詞典需要手工完成,并且詞典的可移植性差。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供了一種獲取評價單元、建立句法路徑詞典的方法、裝置及系統(tǒng)。所述技術(shù)方案如下:
一種獲取評價單元的方法,所述方法包括:
識別情感句的極性詞和目標詞;
創(chuàng)建句法路徑,其中,所述句法路徑用于連接所述極性詞與所述目標詞;
根據(jù)句法路徑詞典獲取所述句法路徑對應(yīng)的目標詞,其中,所述句法路徑詞典用于事先存儲標準句法路徑;
將所述極性詞與所述獲取的目標詞組成評價單元。
一種獲取評價單元的裝置,所述裝置包括:
第一識別模塊,用于識別情感句的極性詞和目標詞;
第一創(chuàng)建模塊,用于用于創(chuàng)建句法路徑,其中,所述句法路徑用于連接所述極性詞與所述目標詞;
第一獲取模塊,用于根據(jù)句法路徑詞典獲取所述句法路徑對應(yīng)的目標詞,其中,所述句法路徑詞典用于事先存儲標準句法路徑;
第一組成單元,用于將所述極性詞與所述獲取的目標詞組成評價單元。
一種建立句法路徑詞典的方法,所述方法包括:
識別情感句語料庫的情感句的極性詞和目標詞;
創(chuàng)建所述情感句的極性詞與目標詞之間的句法路徑,其中,所述句法路徑用于連接所述極性詞與所述目標詞;
對所述句法路徑進行泛化;
計算泛化后的所述句法路徑出現(xiàn)的次數(shù),將所述計算得到的次數(shù)作為所述句法路徑的頻率;
選取頻率超過設(shè)定的閾值的所述句法路徑作為標準句法路徑,將所述標準句法路徑組成句法路徑詞典。
一種建立句法路徑詞典的裝置,所述裝置包括:
第二識別模塊,用于識別情感句語料庫的情感句的極性詞和目標詞;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司;問天(北京)信息技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司;問天(北京)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910082342.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





