[發明專利]文本自動寫作方法和系統在審
| 申請號: | 201810331488.4 | 申請日: | 2018-04-13 |
| 公開(公告)號: | CN108563620A | 公開(公告)日: | 2018-09-21 |
| 發明(設計)人: | 王娜;胡濱洋 | 申請(專利權)人: | 上海一財梵泰傳媒科技有限公司 |
| 主分類號: | G06F17/24 | 分類號: | G06F17/24;G06F17/27;G06F17/30 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 駱希聰 |
| 地址: | 200041 上海市靜安區上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 行為信息 信息采集過程 內容生成 文本解析 文本 互聯網平臺 寫作 行為分析 分析 | ||
本發明提供了一種文本自動寫作方法,包括如下步驟:信息采集過程、文本解析過程、內容生成過程和產品呈現過程。所述讀者行為分析過程,包括:從所述一個或者多個互聯網平臺獲取讀者行為信息,分析所述讀者行為信息,其中所述信息采集過程、所述文本解析過程和所述內容生成過程根據所述讀者行為信息進行調整。
技術領域
本發明主要涉及計算機領域,尤其涉及一種文本自動寫作方法和系統。
背景技術
伴隨著互聯網的高速發展,越來越多的第一手信息通過網絡進行發布。這些信息種類豐富、數量龐大、表現形式多樣。對于內容創作者、尤其是媒體工作者來說,期望及時監控并獲取海量的信息,有效管理通過各種渠道搜集來的大量寫作素材,高效、快速地對這些素材進行篩選、處理并進行內容生產。
已經提出了一些文本自動寫作方法,這些方法的大部分是基于結構化信息。結構化信息經過分析后可分解成多個互相關聯的組成部分,各組成部分間有明確的層次結構,其使用和維護通過數據庫進行管理,并有一定的操作規范。相比之下,非結構化的信息中許多內容都是不可預知的。根據非結構化的信息來進行自動寫作,是一個巨大的挑戰。
發明內容
本發明要解決的技術問題是提供一種文本自動寫作方法和系統,有助于根據非結構化的信息來進行自動寫作。
為解決上述技術問題,本發明提供了一種文本自動寫作方法,包括如下步驟:信息采集過程,包括:從互聯網采集信息,對所述信息進行格式轉換,對所述信息進行噪聲清洗,對所述信息進行數據初篩,獲得文本,其中所述文本包括非結構化部分;文本解析過程,包括:對所述文本進行分類,根據所述文本的類別識別所述文本中的命名實體,根據所述文本的類別抽取所述文本中的命名實體之間的實體關系,根據所述文本的類別抽取能夠反映所述文本中的事件的事件語素;內容生成過程,包括:預先配置一個或多個寫作場景,預先配置一個或多個邏輯模板,根據所述命名實體、所述實體關系和事件語素且應用所述寫作場景和邏輯模板生成語段,識別關聯的語段并聚合成文章;產品呈現過程,包括:將所述文章分發到一個或者多個互聯網平臺;讀者行為分析過程,包括:從所述一個或者多個互聯網平臺獲取讀者行為信息,分析所述讀者行為信息,其中所述信息采集過程、所述文本解析過程和所述內容生成過程根據所述讀者行為信息進行調整。
在本發明的一實施例中,所述文本解析過程還包括:提取所述文本中預先提煉的關鍵詞。
在本發明的一實施例中,所述文本解析過程還包括:抽取所述文本中的關鍵信息。
在本發明的一實施例中,所述文本解析過程還包括:抽取所述文本中用于構成文檔摘要的語句。
在本發明的一實施例中,所述文本解析過程還包括:分析所述文本的情感極性。
在本發明的一實施例中,上述方法還包括數字分析過程,所述數據分析過程包括:對所述文本中的數據進行數值計算和統計,監控所述文本中的數據是否出現異常值。
在本發明的一實施例中,對所述文本進行分類的步驟包括根據預先建立的類別進行分類,其中預先建立類別的方法包括:獲取一個或多個設定的類別;將多個訓練文本的第一部分歸類到所述一個或多個類別中;將多個訓練文本中無法歸類到所述一個或多個類別中的第二部分分為一個或多個聚類;接收對所述一個或多個聚類的建立的分類標簽。
在本發明的一實施例中,所述一個或多個邏輯模板中的每個邏輯模板包括一個或多個候選句子,每個候選句子包括一個或多個候選命名實體、語素和句式。
在本發明的一實施例中,根據所述命名實體、所述實體關系和事件語素且應用所述寫作場景和邏輯模板生成文章的步驟包括:使用深度學習方法根據輸入的參數自動生成語段,所述語段被填入所述邏輯模板。
本發明還提出一種文本自動寫作系統,包括存儲器,用于存儲可由處理器執行的指令;處理器,用于執行所述指令以實現如上所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海一財梵泰傳媒科技有限公司,未經上海一財梵泰傳媒科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810331488.4/2.html,轉載請聲明來源鉆瓜專利網。





