[發明專利]一種對話文本情感摘要的生成方法在審
| 申請號: | 201310693047.6 | 申請日: | 2013-12-17 |
| 公開(公告)號: | CN103617158A | 公開(公告)日: | 2014-03-05 |
| 發明(設計)人: | 李壽山;林莉媛;王中卿;周國棟 | 申請(專利權)人: | 蘇州大學張家港工業技術研究院 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/21 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 唐靈;常亮 |
| 地址: | 215600 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 對話 文本 情感 摘要 生成 方法 | ||
技術領域
本發明涉及自然語言處理領域,特別是涉及一種對話文本情感摘要的生成方法。
背景技術
21世紀以來,隨著互聯網的飛速發展,人們越來越多地在網絡上表達自己的觀點與情感,這類文本往往以商品評論、論壇評論、博客的形式存在,并且大部分文本能很好的反映人們的看法和意見。而通過人工的方法來分析這些海量文本中的情感信息需要耗費大量的時間,人力和物力,在這種背景下,情感分析技術應運而生,并在自然語言處理研究領域得到了廣大研究者的關注,具有很大的應用價值。
在現有的大多數的情感分析中,主要關注于評論語料。而摘要也應用到各個領域,如:新聞文章、科技文章和語音領域,語音領域包括廣播新聞、會議、對話、和演講。然而,對情感摘要的研究還比較少。
情感摘要旨在于對有情感的文本進行濃縮提煉生成帶有情感的摘要。而現有的情感摘要主要集中在對評論語料的研究。隨著對話記錄的大量增加,作用于對話的情感摘要變得十分的迫切。對話文本的情感摘要具有其自己的特征:1.需要關注對話的主題相關性和情感相關性;2.對話的結構對摘要的選取起到重要的作用;3.對話文本中存在許多毫無信息量的句子,如:“Uh”,“Yeah”,“Well”等。雖然這些特征在現有的研究中被提及過,但并沒有很好的被處理,而這很大的影響了對話文本情感摘要的效果。
因此如何處理對話文本中的上述問題,已經成為該種語料結構中獲取情感摘要的新課題。
發明內容
有鑒于此,本發明的目的在于提供一種對話文本情感摘要的生成方法,以減少人工的工作量及更好的解決對話文本中的主題相關性和情感相關性。
根據本發明的目的提出的一種對話文本情感摘要的生成方法,該對話文本為英文對話文本,包括:
1)將英文對話文本進行分句;
2)將步驟1)中獲得的句子進行分詞處理,獲取單詞特征;
3)抽取步驟2)中具有情感詞的句子,標記成情感特征,并根據單詞特征和情感特征構建句子的特征向量;
4)采用余弦算法計算向量間的相似度;
5)根據所得相似度計算句子間的轉移概率;
6)采用PageRank算法計算句子的權值;
7)根據所述句子的權值進行排序,抽取句子,獲得摘要。
優選的,所述步驟1)中是按所述英文對話文本中的結束標志進行分句,所述結束標志為句話、感嘆號、問號或省略號中的一種。
優選的,所述步驟2)中分詞處理是據英文句子的空格,將一個句子分成各個單詞。
優選的,所述步驟3)具體包括步驟:
3.1)提供一情感詞詞典;
3.2)將句子中的單詞與所述情感詞詞典進行匹配查找,以檢測句子中的情感詞,當檢測到情感詞,在該句子后增加“OPINION”特征作為情感特征;
3.3)將所獲得的單詞特征和情感特征結合構建句子的特征向量。
優選的,所述步驟4)中余弦算法計算向量間的相似度具體為:
根據公式進行計算,其中,所述f(i→j)表示兩個向量間的相似度,ui和uj表示兩個句子的特征向量。
優選的,所述步驟5)具體為:
根據公式進行計算,其中,p(i→j)表示句子i到句子j的轉移概率,f(i→j)和f(i→k)為兩個句子特征向量間的相似度。
優選的,所述步驟6)具體為:
根據公式進行計算,其中,所述S(uj)表示句子j的權值,所述μ=0.85為懲罰因子,p(j→i)為上述句子間的轉移概率。
優選的,所述步驟7)具體包括:
7.1)按照所述句子的權值S大小,分別選擇出符合預設數量,且權值較大句子;
7.2)由選擇的所述的句子組成對話文本的情感摘要。
與現有技術相比,本發明提供的對話文本情感摘要生產方法,不需要人工去生成摘要,節省了人力物力,同時,提高了生成對話文本情感摘要的精度。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明實施例公開的一種對話文本情感摘要生成方法的工作流程示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學張家港工業技術研究院,未經蘇州大學張家港工業技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310693047.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于Hadoop的微博熱點話題提取方法
- 下一篇:治療失眠的中藥





