[發明專利]面向領域的中文文本主題句生成方法有效
| 申請號: | 201810696452.6 | 申請日: | 2018-06-28 |
| 公開(公告)號: | CN108897857B | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 宋暉;劉栩彤;戴龍其;葉長暉;岳萬琛 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/258 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩;柏子雵 |
| 地址: | 200050 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 領域 中文 文本 主題 生成 方法 | ||
1.一種面向領域的中文文本主題句生成方法,其特征在于,包括以下步驟:
步驟1:創建領域知識圖譜
城市管理案事件數據集中每一條數據以一個中文句子的形式描述案件具體信息,對城市管理案事件信息數據集進行詞性標注、詞頻統計與權重排序的處理,對處理后的城市管理案事件信息數據集應用LDA主題聚類算法,按層次進行迭代的主題聚類,逐層發現實體類別、描述以及層次所屬關系得到一系列包含實例以及其對應描述詞的主題詞條,并獲得不同內容主題詞條間的層次結構,隨后應用K-means算法對通過LDA主題聚類算法得到的所有詞匯進行聚類操作,根據聚類結果抽象出實體概念,組成以(實體,狀態描述)和(實體,行為動作描述)為基本組成單位的領域知識圖譜;
步驟2:語義信息抽取
依據領域知識圖譜為每一類實體和描述定義語義標簽,并將這些語義標簽標注于訓練集之中,利用訓練集訓練BLSTM-CRF模型實現語義標簽的預測,BLSTM-CRF模型包括輸入層、BLSTM層、CRF層和輸出層,其中:
在輸入層中,句子被表示成向量列表,向量列表中的每一個向量即為句子中每個詞對應的詞向量;
BLSTM層為雙向LSTM神經網絡,由前向LSTM和后向LSTM兩部分組成,BLSTM層的輸出是一個概率矩陣,概率矩陣中的每一個值表示句子中對應的詞被標注為對應語義標簽的概率;
CRF層為無向圖模型;
對于句子,輸出層輸出的是句子中每個詞所對應的語義標簽的序號;
步驟3:主題陳述句生成
基于Bi-LSTM訓練主題句式的分類模型,在主題陳述的句式層面上對已預測過語義標簽的文本進行分類,進一步確定每條數據在所屬的主題句式,根據領域知識圖譜內容,語義信息抽取結果和分類結果,最終確定文本中須提取的詞語序列以及詞語序列的排列句式,生成完整的文本主題句。
2.如權利要求1所述的一種面向領域的中文文本主題句生成方法,其特征在于,所述步驟1中,對預處理后的城市管理案事件信息數據集應用LDA主題聚類算法包括以下步驟:
步驟101、在城市管理案事件信息數據集上進行LDA操作,生成n個主題詞條,2≤n≤10,每個主題詞條中包含10個主題詞,并且按照TF-IDF權重排序降序排列;
步驟102、根據步驟101中得到的主題詞條,在城市管理案事件信息數據集中篩選出包含上述主題詞條組合的事件;
步驟103、在每個主題詞條所對應的事件信息中,再次進行LDA主題聚類操作,挖掘該大類下具體的事件內容類型;
步驟104、將步驟102篩選出的事件從當前城市管理案事件信息數據集中移除,重復步驟101以發現當前城市管理案事件信息數據集中隱藏的主題詞條;
步驟105、在得到新的主題詞條后,重復步驟102、103及104直到通過LDA主題聚類操作不再出現新的主題詞條。
3.如權利要求1所述的一種面向領域的中文文本主題句生成方法,其特征在于,所述步驟1中,應用K-means算法包括以下步驟:將所有主題詞條兩兩組合,計算共現度,如果兩個主題詞條之間的共現度高,則證明兩個主題詞條之間存在關聯,結合之前詞頻統計和詞性標注的結果,可確定其中的實例詞和描述詞,最終確定圖譜基本組成單元之間的連接結構。
4.如權利要求1所述的一種面向領域的中文文本主題句生成方法,其特征在于,步驟2中,所述訓練集的組成方法為:
人工標注N條數據,并將其中有語義標簽的詞匯篩選出來,組成標注詞集ws,然后,對未標注過的訓練數據集進行檢索,并找出那些包含在標注詞集ws中的詞,為這些詞自動標注上對應的語義標簽,將自動標注獲得的大量數據人工矯正后與手工標注的數據合并,組成最終的訓練集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810696452.6/1.html,轉載請聲明來源鉆瓜專利網。





