[發明專利]一種基于結構句法的情緒原因事件識別方法及系統在審
| 申請號: | 201510530866.8 | 申請日: | 2015-08-26 |
| 公開(公告)號: | CN105183807A | 公開(公告)日: | 2015-12-23 |
| 發明(設計)人: | 李壽山;徐健;周國棟 | 申請(專利權)人: | 蘇州大學張家港工業技術研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06K9/62 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 215600 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 結構 句法 情緒 原因 事件 識別 方法 系統 | ||
技術領域
本發明涉及信息抽取技術領域,更具體地說,涉及一種基于結構句法的情緒原因事件識別方法及系統。
背景技術
隨著互聯網的高速發展,網絡信息數據不斷增加,大量信息以電子文本的形式呈現在人們面前。而如何從這些大量的信息中迅速、準確地提取出人們所需求的重要信息就越發重要。
信息抽取是從文本信息中自動獲取所需信息的一種主要手段。信息抽取是將無結構的文本信息,按照人們的需求識別和抽取出來,轉化為結構化或半結構化的信息,并采用數據庫的形式存儲,以便人們查詢和進一步的分析、利用。其中,由文本信息中獲取其情緒原因事件是信息抽取中的一個重要方面,情緒原因事件是指文本信息(可以是某段語句)中情緒的觸發事件。例如,對于文本信息:IamhappybecauseIhavepassedthetest。該句中情緒對應的情緒詞為happy,與之對應的情緒原因事件為Ihavepassedthetest。
目前,情緒原因事件識別方法大多是基于機器學習的方法,即使用統計的方法進行研究。主要還是基于全監督的學習方法,這種方法把情緒原因事件識別看成分類問題,選擇合適的特征并使用合適的分類器來完成。但是,這種方法獲取待測文本的情緒原因事件的準確率較低。
綜上所述,現有技術中的情緒原因事件識別方法存在獲取待測文本的情緒原因事件的準確率較低的問題。
發明內容
本發明的目的是提供一種基于結構句法的情緒原因事件識別方法及系統,以解決現有技術中存在的獲取待測文本的情緒原因事件的準確率較低的問題。
為了實現上述目的,本發明提供如下技術方案:
一種基于結構句法的情緒原因事件識別方法,包括:
獲取預設量的訓練文本,所述訓練文本為已提供其情緒原因事件的文本;
將所述訓練文本進行分詞處理,得到分別與每個所述訓練文本對應的訓練詞組;
確定所述訓練詞組中每個詞語的結構句法特征;
利用所述訓練詞組及每個所述訓練詞組包括的每個詞語的結構句法特征訓練CRF模型;
利用所述CRF模型確定待測詞組對應的待測文本的情緒原因事件。
優選的,所述利用所述訓練詞組及每個所述訓練詞組包括的每個詞語的結構句法特征訓練CRF模型,包括:
確定每個所述訓練詞組中與該訓練詞組的情緒原因事件對應的訓練情緒詞;其中,所述訓練詞組的情緒原因事件為與所述訓練詞組對應的訓練文本的情緒原因事件;
確定每個所述訓練詞組中每個詞語的詞特征、詞性特征及詞距離;其中,每個所述訓練詞組中每個詞語的詞距離為該訓練詞組中每個詞語與該訓練詞組中的訓練情緒詞之間的距離;
利用每個所述訓練詞組及該訓練詞組中每個詞語的詞特征、詞性特征、詞距離及結構句法特征訓練CRF模型。
優選的,確定每個所述訓練詞組中每個詞語的詞特征、詞性特征及結構句法特征,包括:
利用Stanford工具確定所述訓練詞組中每個詞語的詞特征、詞性特征及結構句法特征。
優選的,所述確定每個所述訓練詞組中每個詞語的詞特征、詞性特征及詞距離,包括:
確定每個所述訓練詞組中每個詞語的詞特征、詞性特征及詞距離;其中,每個所述訓練詞組中位于該訓練詞組中的訓練情緒詞左邊的詞語的詞距離為負數,位于該訓練詞組中的訓練情緒詞右邊的詞語的詞距離為正數。
優選的,所述利用所述CRF模型確定待測詞組對應的待測文本的情緒原因事件,包括:
獲取待測文本,所述待測文本為未提供其情緒原因事件的文本;
將所述待測文本進行分詞處理,得到待測詞組;
確定所述待測詞組中包括的待測情緒詞;
確定所述待測詞組中每個詞語的詞特征、詞性特征、詞距離及結構句法特征;其中,所述待測詞組中每個詞語的詞距離為該待測詞組中每個詞語與待測情緒詞之間的距離;
利用所述待測詞組中每個詞語的詞特征、詞性特征、詞距離及結構句法特征,通過所述CRF模型,得到所述待測文本的情緒原因事件。
一種基于結構句法的情緒原因事件識別系統,包括:
獲取模塊,用于獲取預設量的訓練文本,所述訓練文本為已提供其情緒原因事件的文本;
分詞模塊,用于將所述訓練文本進行分詞處理,得到分別與每個所述訓練文本對應的訓練詞組;
第一確定模塊,用于確定所述訓練詞組中每個詞語的結構句法特征;
訓練模塊,用于利用所述訓練詞組及每個所述訓練詞組包括的每個詞語的結構句法特征訓練CRF模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學張家港工業技術研究院,未經蘇州大學張家港工業技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510530866.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種AMOLED像素電路及顯示裝置
- 下一篇:一種易維護的油浸式濾波電抗器





