[發明專利]一種情感特征詞提取系統無效
| 申請號: | 200910089711.X | 申請日: | 2009-07-21 |
| 公開(公告)號: | CN101609459A | 公開(公告)日: | 2009-12-23 |
| 發明(設計)人: | 陶富民;高軍;王騰蛟;楊冬青 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京紀凱知識產權代理有限公司 | 代理人: | 徐 寧;關 暢 |
| 地址: | 100871北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 情感 特征 提取 系統 | ||
1、一種情感特征詞提取系統,其特征在于:它包括特征選取模塊、特征驗證 模塊、關系提取模塊、廣義情感特征詞表和狹義情感特征詞表;所述特征選取模 塊利用文章集合中的文章內容和評論集合中的評論內容,分別提取評論內容全體 的候選情感特征詞和分類的候選情感特征詞;所述關系提取模塊根據所述文章內 容,通過模板構建一個詞與詞的語義關系圖;通過所述全體的候選情感特征詞和 語義關系圖建立廣義情感特征詞表;通過所述分類的候選情感特征詞和語義關系 圖建立狹義情感特征詞表。
2、如權利要求1所述的一種情感特征詞提取系統,其特征在于:所述特征選 取模塊中候選情感特征詞的提取方法為:利用評論集合與文章集合的詞頻信息差 異,用打分法選取候選情感特征詞,計算方程為:
Score1(Term)=(R_DF(Term)/(N_DF(Term)+1)????(1)
Score2(Term)=(R_TF(Term)/(N_TF(Term)+1)????(2)
其中Score1表示通過方程(1)計算得到的分值,Score2表示通過方程(2)計算 得到的分值;Term表示詞;R_DF(Term)表示詞出現在所述評論集合的不同評論內 容中的次數;N_DF(Term)表示詞出現在所述文章集合的不同文章內容中的次數; R_TF(Term)表示詞在所述評論集合中出現的總次數;N_TF(Term)表示詞在所述文 章集合中出現的總次數;之后按分值對詞進行排序,選取一定數目得分較高的詞 作為候選情感特征詞;排序規則是先按Score1進行比較,如果Score1一樣,再 按Score2進行比較。
3、如權利要求1所述的一種情感特征詞提取系統,其特征在于:建立所述廣 義情感特征詞表時,在所述特征驗證模塊中,在全體的候選情感特征詞中選取部 分進行正負向標注,形成基礎情感特征詞表,所述基礎情感特征詞表根據其中的 詞性,分為正向表和負向表兩部分;在所述語義關系圖中找出基礎情感特征詞表 中已標注的情感特征詞的所有的同位詞,將這些同位詞擴充入所述基礎情感特征 詞表中的正向表和負向表中;最后結合所述語義關系圖,使用半監督學習的方法 對擴充的同位詞進行傾向標注和過濾,得到所述廣義情感特征詞表。
4、如權利要求2所述的一種情感特征詞提取系統,其特征在于:建立所述廣 義情感特征詞表時,在所述特征驗證模塊中,在所述全體的候選情感特征詞中選 取部分進行正負向標注,形成基礎情感特征詞表,所述基礎情感特征詞表根據其 中的詞性,分為正向表和負向表兩部分;在所述語義關系圖中找出基礎情感特征 詞表中已標注的情感特征詞的所有的同位詞,將這些同位詞擴充入所述基礎情感 特征詞表中的正向表和負向表中;最后結合所述語義關系圖,使用半監督學習的 方法對擴充后的正向表和負向表進行傾向標注和過濾,形成所述廣義情感特征詞 表。
5、如權利要求1或2或3或4所述的一種情感特征詞提取系統,其特征在于: 建立所述狹義情感特征詞表時,在所述特征驗證模塊中,針對所有的分類的候選 情感特征詞,結合所述擴充后的正向表和負向表,對各類候選情感特征詞進行半 監督學習的正負向判定。
6、如權利要求1或2或3或4所述的一種情感特征詞提取系統,其特征在于: 所述半監督學習方法為:在語義關系圖中尋找某個詞的同位詞,如果某個詞的同 位詞落在正向表中的數目大于落在負向表中的數目,并且落在正向表中的同位詞 數目超過預先設定的最小閾值,那么該詞的詞性就標識為正向;如果某個詞的同 位詞落在負向表中的數目大于落在正向表中的數目,并且落在負向表中的同位詞 數目超過預先設定的最小閾值,那么該詞就標識為負向;如果某個詞的同位詞落 在正向表和落在負向表中的數目均達不到預先設定的最小閾值,則過濾掉該詞。
7、如權利要求5所述的一種情感特征詞提取系統,其特征在于:所述半監督 學習方法為:在語義關系圖中尋找某個詞的同位詞,如果某個詞的同位詞落在正 向表中的數目大于落在負向表中的數目,并且落在正向表中的同位詞數目超過預 先設定的最小閾值,那么該詞的詞性就標識為正向;如果某個詞的同位詞落在負 向表中的數目大于落在正向表中的數目,并且落在負向表中的同位詞數目超過預 先設定的最小閾值,那么該詞就標識為負向;如果某個詞的同位詞落在正向表和 落在負向表中的數目均達不到預先設定的最小閾值,則過濾掉該詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910089711.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種能小腸定位給予避孕藥物的口服劑及其制備方法
- 下一篇:熔絲保持器





