[發明專利]一種體育新聞自動寫作模板庫構建方法在審
| 申請號: | 201910404549.X | 申請日: | 2019-05-15 |
| 公開(公告)號: | CN110516216A | 公開(公告)日: | 2019-11-29 |
| 發明(設計)人: | 呂學強;張樂;董志安;孫少奇 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F17/24 | 分類號: | G06F17/24;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 寫作 模板計算 體育新聞 觸發條件 模板庫構建 相似度 相似度計算 余弦相似度 模板數據 文本語義 向量空間 正確率 構建 應用 | ||
本發明涉及一種體育新聞自動寫作模板庫構建方法包括寫作模板計算、觸發條件構建,首先根據已分好的類別對模板數據進行相似度計算找到相同的模板,其次是利用CRF對模板進行觸發條件識別,最終形成觸發條件?模板;寫作模板計算包括基于余弦相似度的寫作模板計算、基于Word2Vec的寫作模板計算。本發明提供的體育新聞自動寫作模板庫構建方法,取得了極佳的正確率、召回率和F值,能夠通過計算向量空間上的相似度來表示文本語義上的相似度來實現相關詞擴展,為體育新聞自動寫作提供強有力的支持,從而為實現準確高效地體育新聞自動寫作提供極佳的條件,可以很好地滿足實際應用的需要。
技術領域
本發明屬于計算機自動寫作技術領域,具體涉及一種體育新聞自動寫作模 板庫構建方法。
背景技術
體育新聞自動寫作是AI應用領域的一個研究熱點,通過AI技術實現體育 新聞的自動寫作能夠大大減輕體育新聞工作者的勞動強度。體育新聞自動寫作 模板庫是進行體育新聞自動寫作的不可或缺的重要技術手段之一,寫作模板庫 的構建也是體育新聞自動寫作的關鍵性的操作步驟之一。現有技術中,寫作模 板庫的構建方法設計不合理,無法實現相關詞擴展,取得的正確率、召回率和 F值差強人意,不能為體育新聞自動寫作提供強有力的支持,導致體育新聞自 動寫作的效果不佳,不能滿足實際應用的需要。現在亟待研發一種能夠克服現 有技術缺陷的體育新聞自動寫作模板庫構建方法。
發明內容
針對上述現有技術中存在的問題,本發明的目的在于提供一種可避免出現 上述技術缺陷的體育新聞自動寫作模板庫構建方法。
為了實現上述發明目的,本發明提供的技術方案如下:
一種體育新聞自動寫作模板庫構建方法,包括:寫作模板計算、觸發條件 構建。
進一步地,所述體育新聞自動寫作模板庫構建方法包括:首先根據已分好 的類別對模板數據進行相似度計算找到相同的模板,其次是利用CRF對模板進 行觸發條件識別,最終形成觸發條件-模板。
進一步地,寫作模板計算包括基于余弦相似度的寫作模板計算,基于余弦 相似度的寫作模板計算包括:采用余弦相似度來計算兩個句子的相似度,對兩 個句子進行分詞,列出所有的詞語,計算詞頻,寫出詞頻向量;把詞頻向量想 象成空間中的兩條線段,都是從原點出發,指向不同的方向,兩條線段之間形 成一個夾角,計算夾角的余弦相似度。
進一步地,如果夾角為0,意味著方向相同、線段重合,表示兩個向量代表 的文本完全相等;如果夾角為90度,意味著形成直角,方向完全不相似;如果 夾角為180度,意味著方向正好相反,通過夾角的大小來判斷向量的相似程度, 夾角越小,就代表越相似。
進一步地,寫作模板計算包括基于Word2Vec的寫作模板計算,基于 Word2Vec的寫作模板計算包括:利用Word2Vec工具把背景語料中的詞語用向 量進行形式化表示,把對文本的處理簡化為向量空間中的向量運算,通過計算 向量空間上的相似度來表示文本語義上的相似度,實現相關詞擴展。
進一步地,基于CRF的寫作模板觸發條件構建包括:
對于給定的一個比賽描述句子Texti來說,客隊和主隊的比分差為Diffsore, 寫作模板為Y,觸發條件為Xi;
Diffsorei=Texti·Score1-Texti·Score2;
Y=Diffsore(∑i=1Xi);
計算每一條text的比分差,并對diffsore進行排序
List=dis(diffsore);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910404549.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種體育新聞自動寫作方法
- 下一篇:一種報表自動生成方法及裝置





