[發(fā)明專利]提取文本核心短語的方法和裝置在審
| 申請?zhí)枺?/td> | 201811056007.X | 申請日: | 2018-09-11 |
| 公開(公告)號: | CN110895655A | 公開(公告)日: | 2020-03-20 |
| 發(fā)明(設(shè)計)人: | 李超;韓鳳嬌;金成珠;張銳 | 申請(專利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289 |
| 代理公司: | 中原信達知識產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 張一軍;李陽 |
| 地址: | 100195 北京市海淀區(qū)杏石口路6*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 提取 文本 核心 短語 方法 裝置 | ||
本發(fā)明公開了一種提取文本核心短語的方法和裝置,涉及計算機技術(shù)領(lǐng)域。該方法的一具體實施方式包括:將文本分成若干個第一片段,并按照所述文本的順序?qū)⒌谝黄谓M合成至少一個短語;針對每個短語,確定其在所有短語中的出現(xiàn)頻率;將出現(xiàn)頻率超過定位閾值且滿足詞性要求的短語,作為所述文本的核心短語。該實施方式能夠解決現(xiàn)有技術(shù)在識別和提取過程中需要大量的標(biāo)注的問題,從而避免因標(biāo)注的質(zhì)量不高而導(dǎo)致最終提取結(jié)果不準(zhǔn)確的情況,本發(fā)明實施例提取核心短語的方法覆蓋率更高,提取出來的核心短語能更有效準(zhǔn)確地表達句子的核心信息。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種提取文本核心短語的方法和裝置。
背景技術(shù)
現(xiàn)有的提取核心短語方法有兩種:一種是使用CRF(conditional random fieldalgorithm,條件隨機場算法)的方法,即基于條件隨機場實現(xiàn)文本中的核心信息識別;另一種是文本生成的方法,即采用seq2seq(Sequence to Sequence)模型實現(xiàn)生成一句文本中的核心短語。這兩種方法對于識別文本中的核心短語都有著顯著的效果和廣泛的應(yīng)用。
在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:
在識別和提取過程中需要大量的標(biāo)注,并且標(biāo)注的質(zhì)量直接決定了最終的結(jié)果和效果。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種提取文本核心短語的方法和裝置,能夠解決現(xiàn)有技術(shù)在識別和提取過程中需要大量的標(biāo)注的問題,從而避免因標(biāo)注的質(zhì)量不高而導(dǎo)致最終提取結(jié)果不準(zhǔn)確的情況。
為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的一個方面,提供了一種提取文本核心短語的方法,包括:將文本分成若干個第一片段,并按照所述文本的順序?qū)⒌谝黄谓M合成至少一個短語;針對每個短語,確定其在所有短語中的出現(xiàn)頻率;將出現(xiàn)頻率超過定位閾值且滿足詞性要求的短語,作為所述文本的核心短語。
可選地,針對每個短語,確定其在所有短語中的出現(xiàn)頻率之后,還包括:從所有短語的出現(xiàn)頻率中,確定最高出現(xiàn)頻率和最低出現(xiàn)頻率;基于所述最高出現(xiàn)頻率的權(quán)值和所述最低出現(xiàn)頻率的權(quán)值,對所述最高出現(xiàn)頻率和最低出現(xiàn)頻率進行加權(quán)求和,得到所述文本的定位閾值。
可選地,將出現(xiàn)頻率超過所述定位閾值且滿足詞性要求的短語,作為所述文本的核心短語,包括:篩選出現(xiàn)頻率超過所述定位閾值的短語,將其作為合格短語;對所述合格短語進行切詞處理,得到若干個第二片段;針對每個合格短語,按照所述文本的順序?qū)⒌诙芜M行兩兩組合,得到至少一組片段組合;若至少一組所述片段組合滿足詞性要求,則將所述合格短語為所述文本的核心短語。
可選地,所述詞性要求包括片段組合中的兩個第二片段的詞性滿足以下情況之一:形容詞+名詞、名詞+形容詞、名詞+副詞、形容詞+形容詞。
可選地,所述短語的長度范圍為[3,8]。
可選地,所述將文本分成若干個第一片段,包括:采用基于深度學(xué)習(xí)的開源分詞工具或結(jié)巴框架,對文本進行切詞處理,得到若干個第一片段。
根據(jù)本發(fā)明實施例的另一個方面,提供了一種提取文本核心短語的裝置,包括:文本分詞模塊,用于:將文本分成若干個第一片段,并按照所述文本的順序?qū)⒌谝黄谓M合成至少一個短語;確定頻率模塊,用于:針對每個短語,確定其在所有短語中的出現(xiàn)頻率;提取模塊,用于:將出現(xiàn)頻率超過所述定位閾值且滿足詞性要求的短語,作為所述文本的核心短語。
可選地,所述裝置還包括確定閾值模塊,用于:從所有短語的出現(xiàn)頻率中,確定最高出現(xiàn)頻率和最低出現(xiàn)頻率;基于所述最高出現(xiàn)頻率的權(quán)值和最低出現(xiàn)頻率的權(quán)值,對所述最高出現(xiàn)頻率和最低出現(xiàn)頻率進行加權(quán)求和,得到所述文本的定位閾值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811056007.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





