[發(fā)明專(zhuān)利]一種賽事文字直播關(guān)鍵句抽取方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810310247.1 | 申請(qǐng)日: | 2018-04-09 |
| 公開(kāi)(公告)號(hào): | CN108549636A | 公開(kāi)(公告)日: | 2018-09-18 |
| 發(fā)明(設(shè)計(jì))人: | 呂學(xué)強(qiáng);董志安 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京信息科技大學(xué);呂學(xué)強(qiáng) |
| 主分類(lèi)號(hào): | G06F17/27 | 分類(lèi)號(hào): | G06F17/27;G06F17/30;G06N3/08 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 100192 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 抽取 時(shí)間特征 二分類(lèi) 關(guān)鍵詞擴(kuò)展 直播 正確率 轉(zhuǎn)換 算法 分類(lèi) 應(yīng)用 | ||
1.一種賽事文字直播關(guān)鍵句抽取方法,其特征在于,包括:
步驟一:利用Word2Vec進(jìn)行關(guān)鍵詞擴(kuò)展,得到得分相關(guān)詞集和其他相關(guān)詞集,將得分相關(guān)詞集、其他相關(guān)詞集再加上比分特征和時(shí)間特征共同構(gòu)成關(guān)鍵句抽取特征;
步驟二:把關(guān)鍵句抽取轉(zhuǎn)換為二分類(lèi)問(wèn)題,利用Adaboost算法進(jìn)行分類(lèi)。
2.根據(jù)權(quán)利要求1所述的賽事文字直播關(guān)鍵句抽取方法,其特征在于,步驟一包括:利用Word2Vec工具把背景語(yǔ)料中的詞語(yǔ)用向量進(jìn)行形式化表示,把對(duì)文本的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,通過(guò)計(jì)算向量空間上的相似度來(lái)表示文本語(yǔ)義上的相似度,實(shí)現(xiàn)相關(guān)詞擴(kuò)展。
3.根據(jù)權(quán)利要求1-2所述的賽事文字直播關(guān)鍵句抽取方法,其特征在于,步驟一還包括:在將詞表示為相應(yīng)的向量形式后,向訓(xùn)練后得到的詞向量文件中輸入關(guān)鍵詞,通過(guò)計(jì)算余弦距離,輸出在一定閾值內(nèi)或者一定的順序與該關(guān)鍵詞在語(yǔ)義上相似的詞語(yǔ),從而得到關(guān)鍵詞的相關(guān)詞集。
4.根據(jù)權(quán)利要求1-3所述的賽事文字直播關(guān)鍵句抽取方法,其特征在于,余弦距離的計(jì)算如下式所示:
5.根據(jù)權(quán)利要求1-4所述的賽事文字直播關(guān)鍵句抽取方法,其特征在于,步驟一包括:
基于Skip-gram模型,并采用Hierarchical Softmax方法進(jìn)行優(yōu)化訓(xùn)練;利用當(dāng)前詞的詞向量預(yù)測(cè)指定窗口上下文的詞向量,假設(shè)給定訓(xùn)練特征數(shù)據(jù)w1,w2,w3…wT,則Skip-gram模型的目標(biāo)函數(shù)為:
采用Hierarchical Softmax算法,該算法利用Huffman二叉樹(shù)表示特征詞,將輸出層的T個(gè)單詞作為葉子結(jié)點(diǎn),將每個(gè)詞的出現(xiàn)頻次作為權(quán)重進(jìn)行編碼,對(duì)高頻詞分配較短路徑,低頻詞分配較長(zhǎng)路徑,從而每個(gè)單詞都可以從樹(shù)的根結(jié)點(diǎn)沿著唯一的一條路徑被訪(fǎng)問(wèn)到,p(u|w)函數(shù)定義如下:
采用梯度下降法來(lái)求解目標(biāo)函數(shù),生成單詞的詞向量表示形式。
6.根據(jù)權(quán)利要求1-5所述的賽事文字直播關(guān)鍵句抽取方法,其特征在于,得分相關(guān)詞是與得分相關(guān)的詞語(yǔ);步驟一包括:通過(guò)手工收集一些得分關(guān)鍵詞,然后利用Word2Vec對(duì)得分關(guān)鍵詞進(jìn)行相關(guān)詞擴(kuò)展形成得分相關(guān)詞集,統(tǒng)計(jì)句子中是否包含得分相關(guān)詞以及包含得分相關(guān)詞的個(gè)數(shù),來(lái)作為關(guān)鍵句的抽取特征。
7.根據(jù)權(quán)利要求1-6所述的賽事文字直播關(guān)鍵句抽取方法,其特征在于,步驟一包括:通過(guò)手工收集一些其他關(guān)鍵詞,然后利用Word2Vec對(duì)這些基本的其他關(guān)鍵詞進(jìn)行相關(guān)詞擴(kuò)展形成其他相關(guān)詞集,統(tǒng)計(jì)句子中是否包含其他相關(guān)詞以及包含其他相關(guān)詞的個(gè)數(shù),并將其作為關(guān)鍵句的抽取特征。
8.根據(jù)權(quán)利要求1-7所述的賽事文字直播關(guān)鍵句抽取方法,其特征在于,步驟一包括:定義一個(gè)時(shí)間函數(shù),通過(guò)函數(shù)判定句子是否在特定的時(shí)間范圍內(nèi),并對(duì)此賦予不同的權(quán)重,來(lái)描述不同時(shí)間段的重要程度,其函數(shù)定義如下:
F(s)=pf1(s)+qf2(s)+rf3(s);
把時(shí)間特征作為關(guān)鍵句抽取的一項(xiàng)特征。
9.根據(jù)權(quán)利要求1-8所述的賽事文字直播關(guān)鍵句抽取方法,其特征在于,比分特征包括比分較上一條的比分變化、球隊(duì)累計(jì)得分、球員累計(jì)得分、球隊(duì)累計(jì)不得分;如果這條文字直播與上條文字直播相比,得分有變化,取變化的數(shù)量作為特征,;如果一個(gè)球隊(duì)持續(xù)累計(jì)得分越多,則越重要,以累計(jì)得分作為特征;如果一個(gè)球員累計(jì)得分越多,說(shuō)明該球員的表現(xiàn)比較好;如果一個(gè)球隊(duì)累計(jì)不得分,則把累計(jì)不得分的時(shí)間作為特征。
10.根據(jù)權(quán)利要求1-9所述的賽事文字直播關(guān)鍵句抽取方法,其特征在于,步驟二包括:把文字直播的關(guān)鍵句抽取轉(zhuǎn)換為二分類(lèi)問(wèn)題,分為關(guān)鍵句和非關(guān)鍵句,對(duì)文字直播文本進(jìn)行二分類(lèi),關(guān)鍵句標(biāo)簽為1,非關(guān)鍵句標(biāo)簽為-1;利用分類(lèi)與回歸樹(shù)進(jìn)行不斷迭代得到一個(gè)強(qiáng)分類(lèi)器,進(jìn)行二分類(lèi),輸出標(biāo)簽為1的屬于關(guān)鍵句,輸出標(biāo)簽為-1的為非關(guān)鍵句。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京信息科技大學(xué);呂學(xué)強(qiáng),未經(jīng)北京信息科技大學(xué);呂學(xué)強(qiáng)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810310247.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種專(zhuān)利文獻(xiàn)領(lǐng)域術(shù)語(yǔ)抽取方法
- 下一篇:基于拼音的語(yǔ)義識(shí)別方法、裝置以及人機(jī)對(duì)話(huà)系統(tǒng)
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 參數(shù)化的時(shí)間特征分析
- 空間測(cè)量定位系統(tǒng)的相關(guān)時(shí)間提取及特征時(shí)間計(jì)算方法
- 基于跟蹤時(shí)間預(yù)測(cè)的特征選擇方法
- 時(shí)間分段表示特征矢量生成設(shè)備
- 一種時(shí)間特征模型及其建模方法
- 基于時(shí)間敏感特征的交通特征獲取方法、預(yù)測(cè)方法及系統(tǒng)
- 時(shí)間序列數(shù)據(jù)特征量提取裝置、時(shí)間序列數(shù)據(jù)特征量提取方法和時(shí)間序列數(shù)據(jù)特征量提取程序
- 基于特征矩陣決策樹(shù)的時(shí)間序列特征識(shí)別與分解方法
- 一種融合用戶(hù)時(shí)間特征和個(gè)性特征的數(shù)據(jù)特征提取方法
- 基于時(shí)間格式和網(wǎng)頁(yè)元素特征的文章發(fā)布時(shí)間識(shí)別方法
- 一種文本分類(lèi)方法、裝置和設(shè)備
- 一種養(yǎng)殖箱
- 自然語(yǔ)言分類(lèi)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 圖像分類(lèi)方法、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 基于高分遙感影像二分類(lèi)語(yǔ)義分割圖融合成多分類(lèi)語(yǔ)義圖的方法
- 基于二分類(lèi)的深度學(xué)習(xí)手寫(xiě)中文字符識(shí)別方法及系統(tǒng)
- 基于Two-Head異常檢測(cè)模型的惡意代碼樣本篩選器及方法
- 多分類(lèi)樣本數(shù)據(jù)的處理方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 多分類(lèi)模型的訓(xùn)練方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于二分類(lèi)模型的多分類(lèi)方法、裝置、電子設(shè)備及介質(zhì)
- 基于微博平臺(tái)的擴(kuò)展關(guān)鍵詞獲取方法和設(shè)備
- 一種基于關(guān)鍵詞的檢索方法和系統(tǒng)
- 關(guān)鍵詞擴(kuò)展方法和關(guān)鍵詞擴(kuò)展系統(tǒng)
- 一種基于人工智能的獲取生成詩(shī)詞的關(guān)鍵詞的方法和裝置
- 話(huà)題預(yù)警的方法和裝置
- 一種基于廣告主買(mǎi)詞行為的關(guān)鍵詞關(guān)聯(lián)擴(kuò)展方法和裝置
- 一種關(guān)鍵詞組合策略的生成及關(guān)鍵詞擴(kuò)展方法、裝置和設(shè)備
- 一種搜索詞的處理方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 短文本分類(lèi)模型的生成方法、分類(lèi)方法、裝置及存儲(chǔ)介質(zhì)
- 一種關(guān)鍵詞推薦的方法、相關(guān)裝置以及存儲(chǔ)介質(zhì)





