[發明專利]面向領域的中文文本主題句生成方法有效
| 申請號: | 201810696452.6 | 申請日: | 2018-06-28 |
| 公開(公告)號: | CN108897857B | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 宋暉;劉栩彤;戴龍其;葉長暉;岳萬琛 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/258 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩;柏子雵 |
| 地址: | 200050 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 領域 中文 文本 主題 生成 方法 | ||
本發明提供了一種面向領域的中文文本主題句生成方法,其特征在于,包括以下步驟:面向領域文本數據集,建立相應的領域知識圖譜,應用深度神經網絡模型對文本進行語義信息抽取,按照主題句式對文本進行分類,最終生成文本的主題句。本發明通過創建領域知識圖譜的方法獲得數據集概念模型和內容敘述模式特性,并利用深度學習模型對文本數據進行標注和分類訓練,進而生成出文本的主題句,實現基于知識的查詢和統計。該方法具有較強的應用適用性,對于限定領域數據集,具有較好的主題句生成效果。
技術領域
本發明涉及一種對中文文本進行主題提取的方法,特別是基于領域數據集概括領域文本描述特征,為文本生成主題句的方法。
背景技術
近年來,隨著人工智能技術的發展,計算機在自然語言理解中取得許多有應用價值的成果。主題提取是文本挖掘領域的一個重要分支,在搜索引擎,文本分類,信息統計等方面有著非常重要的作用。如何從文本中精煉準確地提取出其中的主題信息是理解語言表達內容的關鍵,一直是該領域的研究熱點。
由于中文語義與句式結構的多樣性與復雜性,直接對文本進行主題提取存在一定困難。為了獲得文本的主要信息,目前已有方法多以在文本中提取主題關鍵詞為主,主要分為基于統計分析和基于語義分析的方法。
基于統計的方法通常通過計算詞頻,詞語共現度或詞語權重等統計量找出文本中的主題關鍵詞。該類方法由于忽略了文本的語義特征,提取出的結果中容易包含噪聲數據,準確率不高。基于語義的方法通常依賴人類的先驗知識,通過使用預先定義好的語義模版,或引入外部知識庫的方式提取文本中的關鍵信息。相對于統計方法而言,基于語義的方法在準確率上有了很大提升,但實現過程十分繁瑣,可遷移性相對較差。
使用主題詞表示文本信息,忽略了主題詞之間的聯系,無法準確捕捉文本陳述的事實性知識。
隨著知識圖譜概念的提出和神經網絡模型的發展,很多研究者開始嘗試以(實體,關系,實體)或(實體,屬性,屬性值)等三元組的方式表示知識,構建圖譜表達模型,使用監督或半監督的學習方法從文本中抽取知識實例。例如將實體,關系或屬性等表示成向量形式,利用神經網絡模型訓練得到對應的分類或其他相關信息。目前,這些技術已在知識問答系統或智能機器人等中廣泛應用。
發明內容
本發明要解決的技術問題是:現有主題提取方法無法得到完整的主題內容敘述,主要通過主題關鍵詞描述文本。針對領域性較強的文本數據,面向開放領域的知識圖譜結構很難準確反應不同領域知識的描述方式,概括出文本中包含的主題信息。
為了解決上述技術問題,本發明的技術方案是提供了一種自動面向領域構建知識圖譜,為中文文本生成主題句的方法,實施基于知識的查詢和統計。為清楚論述本發明,茲以優選實施例的領域:城市管理案事件描述版本方法特征在于,包括以下步驟:
步驟1:創建領域知識圖譜
城市管理案事件數據集中每一條數據以一個中文句子的形式描述案件具體信息,對城市管理案事件信息數據集進行詞性標注、詞頻統計與權重排序的處理,對處理后的城市管理案事件信息數據集應用LDA主題聚類算法,按層次進行迭代的主題聚類,逐層發現實體類別、描述以及層次所屬關系得到一系列包含實例以及其對應描述詞的主題詞條,并獲得不同內容主題詞條間的層次結構,隨后應用K-means算法對通過LDA主題聚類算法得到的所有詞匯進行聚類操作,根據聚類結果抽象出實體概念,組成以(實體,狀態描述)和(實體,行為動作描述)為基本組成單位的領域知識圖譜;
步驟2:語義信息抽取
依據領域知識圖譜為每一類實體和描述定義語義標簽,并將這些語義標簽標注于訓練集之中,利用訓練集訓練BLSTM-CRF模型實現語義標簽的預測,BLSTM-CRF模型包括輸入層、BLSTM層、CRF層和輸出層,其中:
在輸入層中,句子被表示成向量列表,向量列表中的每一個向量即為句子中每個詞對應的詞向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810696452.6/2.html,轉載請聲明來源鉆瓜專利網。





