[發(fā)明專利]一種基于形態(tài)和語義相似度的對話短文本聚類方法有效
| 申請?zhí)枺?/td> | 201410235900.4 | 申請日: | 2014-05-30 |
| 公開(公告)號: | CN104008166B | 公開(公告)日: | 2017-05-24 |
| 發(fā)明(設(shè)計)人: | 胡琴敏;陳國梁;楊河彬;羅念;鐘哲凡;裴逸鈞 | 申請(專利權(quán))人: | 華東師范大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海藍迪專利商標事務(wù)所(普通合伙)31215 | 代理人: | 徐筱梅,張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 形態(tài) 語義 相似 對話 文本 方法 | ||
1.一種基于形態(tài)和語義相似度的對話短文本聚類方法,其特征在于該方法包括以下具體步驟:
步驟S1:對于中文短文本采用分詞工具進行分詞處理,然后利用正則匹配與字符串替換來過濾掉無效字符、連續(xù)空格、大小寫混用噪音信息;對于英文短文本采用詞干提取工具進行預(yù)處理;
步驟S2:利用TF-IDF和TextRank方法進行關(guān)鍵詞提取來獲取候選關(guān)鍵詞以及對應(yīng)的權(quán)重值;將去除噪音的短文本和關(guān)鍵詞集合相結(jié)合起來形成帶有權(quán)重值的格式化短文本;根據(jù)帶有權(quán)重的格式化短文本定義一種新的短文本和類中心的表示方式;
步驟S3:聚類開始的時候,類中心集合為空;當?shù)谝粋€對話短文本輸入之后,發(fā)現(xiàn)類中心集合為空,則以當前短文本為基礎(chǔ)建立一個類中心,并加入類中心集合;當?shù)诙€短文本輸入之后,遍歷類中心集合發(fā)現(xiàn)存在一個類中心,根據(jù)短文本和類中心的表示方式,結(jié)合形態(tài)和語義因素來計算當前短文本與類中心的相似度距離D;形態(tài)因素采用編輯距離相似度;語義因素采用知網(wǎng)、同義詞林和WordNet知識庫的詞語語義相似度;如果D小于閾值T,則將該對話短文本加入該類中心并更新該類中心;否則從類中心集合中取下一個類中心進行同樣判斷,當遍歷完了類中心集合之后依舊沒有符合要求的類中心,則需要以該短文本為基礎(chǔ)建立一個新的類中心并加入類中心集合;依次循環(huán)上述過程,直到所有對話短文本完成聚類;最終的類中心集合則為所需聚類結(jié)果,每個對話短文本與最終類中心集合中哪個類中心的相似度距離最小,則該對話短文本就屬于這個類:其中:
所述步驟S1中新的對話短文本與類中心的表示方式為:
ⅰ)短文本ST由原始短文本RST、規(guī)整化字符串文本FST和關(guān)鍵詞集合KWL三部分組成,其短文本ST的數(shù)學(xué)描述為:ST={RST,FST/WT,KWL=[KW1/wt1,...,KWi/wti,...]},WT表示FST的權(quán)重,wti表示KWi的權(quán)重;
ⅱ)類中心Center由類標號CID、類權(quán)重CWT、類成員數(shù)目CMN、原始短文本集合CRSTL、規(guī)整化字符串文本集合CFSTL和關(guān)鍵詞集合CKWL組成,其類中心Center的數(shù)學(xué)描述為:
WTj表示FSTj的權(quán)重,wtk表示KWk的權(quán)重。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟S3中結(jié)合形態(tài)和語義因素來計算當前短文本與類中心的相似度距離D,具體包括:
基于ST、Center表示形式,結(jié)合編輯距離相似度和詞語語義相似度來計算短文本相似度Simi,相似度距離D=1-Simi,其中編輯距離相似度表示為FSimi,詞語語義相似度表示為SSimi;
其中為編輯距離相似度的權(quán)重因子,即形態(tài)因素在相似度計算中所占比例;Simi(STA,STB)表示STA和STB的相似度,F(xiàn)Simi(STA.FST,STB.FST)表示規(guī)整化文本字符串的編輯距離相似度,SSimi(STA.KWL,STB.KWL)表示STA和STB的語義相似度;
FSimi(STA.FST,STB.FST)=Levenshtein(STA.FST,STB.FST) (1)
公式(2)中wti作為權(quán)重因素融入計算語義相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東師范大學(xué),未經(jīng)華東師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410235900.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





