[發明專利]一種賽事文字直播關鍵句抽取方法在審
| 申請號: | 201810310247.1 | 申請日: | 2018-04-09 |
| 公開(公告)號: | CN108549636A | 公開(公告)日: | 2018-09-18 |
| 發明(設計)人: | 呂學強;董志安 | 申請(專利權)人: | 北京信息科技大學;呂學強 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抽取 時間特征 二分類 關鍵詞擴展 直播 正確率 轉換 算法 分類 應用 | ||
本發明涉及一種賽事文字直播關鍵句抽取方法,其特征在于,包括:步驟一:利用Word2Vec進行關鍵詞擴展,得到得分相關詞集和其他相關詞集,將得分相關詞集、其他相關詞集再加上比分特征和時間特征共同構成關鍵句抽取特征;步驟二:把關鍵句抽取轉換為二分類問題,利用Adaboost算法進行分類。本發明首先利用Word2Vec對得分關鍵詞和其他關鍵詞進行擴展,得到得分相關詞集和其他相關詞集,然后把關鍵句抽取轉換為二分類問題,以得分相關詞集、其他相關詞集、比分特征以及時間特征作為抽取特征,并利用Adaboost提升算法進行抽取,得到了更加準確的抽取效果,達到了很好的抽取效果,抽取結果的正確率、召回率和F值均較高,可以很好地滿足實際應用的需要。
技術領域
本發明屬于文本信息處理技術領域,具體涉及一種賽事文字直播關鍵句抽取方法。
背景技術
隨著科學技術的發展,互聯網信息已經深刻地影響了人們的工作和日常生活,尤其是手機終端的普遍流行,讓信息的傳達變得越來越便捷,在這種互聯網新媒體下,體育新聞成為人們及時了解體育賽況的一個主要途徑,但是相對于體育賽事直播來說,體育新聞的報導還存在一定的滯后性,因此如何提高新聞寫作的時效性,實現將傳統的信息采集、新聞稿撰寫、新聞稿編排等過程的融合,形成從“數據抽取”到“文稿生成”的兩步式新聞自動生產方式,是未來新聞寫作的熱點研究方向。目前體育賽事的“數據抽取”包括賽事實體的抽取、比賽數據的挖掘以及賽事動態信息的抽取。其中,賽事精彩動態信息的自動提取是目前研究的熱點之一,利用這一功能,可以從大量直播數據中方便地獲取比賽中的重要事件。關鍵句抽取可以使用自動文摘中文摘句的選取方法。自動文摘中文摘句的選取主要有三種方法:第一種是利用句子排序問題,對句子進行排序,選擇分值高的句子作為文摘句,分值低的句子被排除在外。然而,現有技術的方法設計不夠科學,關鍵句抽取效果不佳,抽取結果的正確率、召回率和F值均比較低,不能滿足實際應用的需要,現在亟待研發一種抽取效果好、抽取結果的正確率、召回率和F值均較高的抽取方法。
發明內容
針對上述現有技術中存在的問題,本發明的目的在于提供一種可避免出現上述技術缺陷的賽事文字直播關鍵句抽取方法。
為了實現上述發明目的,本發明提供的技術方案如下:
一種賽事文字直播關鍵句抽取方法,包括:
步驟一:利用Word2Vec進行關鍵詞擴展,得到得分相關詞集和其他相關詞集,將得分相關詞集、其他相關詞集再加上比分特征和時間特征共同構成關鍵句抽取特征;
步驟二:把關鍵句抽取轉換為二分類問題,利用Adaboost算法進行分類。
進一步地,步驟一包括:利用Word2Vec工具把背景語料中的詞語用向量進行形式化表示,把對文本的處理簡化為向量空間中的向量運算,通過計算向量空間上的相似度來表示文本語義上的相似度,實現相關詞擴展。
進一步地,步驟一還包括:在將詞表示為相應的向量形式后,向訓練后得到的詞向量文件中輸入關鍵詞,通過計算余弦距離,輸出在一定閾值內或者一定的順序與該關鍵詞在語義上相似的詞語,從而得到關鍵詞的相關詞集。
進一步地,余弦距離的計算如下式所示:
其中,distance(w1,w2)代表詞w1和w2的余弦距離,和分別為向量空間中w1和w2的詞向量。
進一步地,步驟一包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學;呂學強,未經北京信息科技大學;呂學強許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810310247.1/2.html,轉載請聲明來源鉆瓜專利網。





