[發(fā)明專利]文本公告中觸發(fā)詞的抽取方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201811295979.4 | 申請日: | 2018-11-01 |
| 公開(公告)號: | CN109299470A | 公開(公告)日: | 2019-02-01 |
| 發(fā)明(設(shè)計)人: | 羅鎮(zhèn)權(quán);練睿;羅強;唐遠洋;劉世林;丁國棟;曾途 | 申請(專利權(quán))人: | 成都數(shù)聯(lián)銘品科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/25;G06N3/04 |
| 代理公司: | 北京市領(lǐng)專知識產(chǎn)權(quán)代理有限公司 11590 | 代理人: | 林輝輪;張玲 |
| 地址: | 610015 四川省成都市自由貿(mào)易試驗區(qū)*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 觸發(fā) 抽取 文本 句子 標點符號 句子輸入 匹配成功 事件觸發(fā) 序號標識 整體內(nèi)容 詞抽取 詞轉(zhuǎn)換 概率 分句 匹配 輸出 應(yīng)用 | ||
1.一種文本公告中觸發(fā)詞的抽取方法,其特征在于,包括以下步驟:
步驟1,通過標點符號對文本公告的整體內(nèi)容進行分句,得到若干個句子;
步驟2,將每個句子劃分為若干個詞,并將若干個詞與預(yù)建立的詞典中的觸發(fā)詞進行匹配,依序?qū)⑵ヅ涑晒Φ耐粋€詞轉(zhuǎn)換成帶不同序號標識的相同符號;
步驟3,將經(jīng)步驟2處理后的每一個句子輸入觸發(fā)詞抽取模型中,輸出得到每個詞為觸發(fā)詞的概率值,概率值大于等于閾值的詞即為觸發(fā)詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在將每個句子劃分為若干個詞之前,還包括步驟:基于預(yù)先設(shè)立的若干個關(guān)鍵詞,去掉不包含任一個關(guān)鍵詞的句子;此時,所述將每個句子劃分為若干個詞是指,將保留下來的每個句子劃分為若干個詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在輸出得到每個詞為觸發(fā)詞的概率值之后,還包括步驟:將大于等于閾值的概率值用第一字符替換,將小于閾值的概率值用第二字符替換。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟2中,是將關(guān)鍵詞和句子分詞后分別用詞向量和字向量映射成向量輸入至觸發(fā)詞抽取模型中。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟3中,觸發(fā)詞抽取模型通過門控式基于注意力循環(huán)神經(jīng)網(wǎng)絡(luò)捕捉關(guān)鍵詞和句子的交互信息。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述步驟3中,觸發(fā)詞抽取模型采用自匹配注意力機制捕捉同一句子內(nèi)部長距離詞距的信息。
7.一種文本公告中觸發(fā)詞的抽取系統(tǒng),其特征在于,包括以下模塊:
分句模塊,用于通過標點符號對文本公告的整體內(nèi)容進行分句,得到若干個句子;
分詞模塊,用于將每個句子劃分為若干個詞,并將若干個詞與預(yù)建立的詞典中的觸發(fā)詞進行匹配,依序?qū)⑵ヅ涑晒Φ耐粋€詞轉(zhuǎn)換成帶不同序號標識的相同符號;
觸發(fā)詞抽取模塊,將所述分詞模塊輸出的每一個句子輸入觸發(fā)詞抽取模型中,輸出得到每個詞的為觸發(fā)詞的概率值,概率值大于等于閾值的詞即為觸發(fā)詞。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括過濾模塊,用于基于預(yù)先設(shè)立的若干個關(guān)鍵詞,去掉不包含任一個關(guān)鍵詞的句子,僅保留包含關(guān)鍵詞的句子;此時,所述分詞及替換模塊具體用于將所述過濾模塊保留下來的每個句子劃分為若干個詞,并將若干個詞與預(yù)建立的詞典中的觸發(fā)詞進行匹配,依序?qū)⑵ヅ涑晒Φ耐粋€詞轉(zhuǎn)換成帶不同序號標識的相同符號。
9.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述觸發(fā)詞抽取模塊,具體用于將所述分詞模塊輸出的每一個句子輸入觸發(fā)詞抽取模型中,輸出得到每個詞的為觸發(fā)詞的概率值,并將大于等于閾值的概率值用第一字符替換,將小于閾值的概率值用第二字符替換,抽取出第一字符所在位置的詞即為觸發(fā)詞。
10.一種包括計算機可讀指令的計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀指令在被執(zhí)行時使處理器執(zhí)行權(quán)利要求1-6任一所述方法中的操作。
11.一種電子設(shè)備,其特征在于,所述的設(shè)備包括:
存儲器,存儲程序指令;
處理器,與所述存儲器相連接,執(zhí)行存儲器中的程序指令,實現(xiàn)權(quán)利要求1-6任一所述方法中的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都數(shù)聯(lián)銘品科技有限公司,未經(jīng)成都數(shù)聯(lián)銘品科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811295979.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





