[發(fā)明專利]新詞挖掘方法、裝置及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202010522871.5 | 申請日: | 2020-06-10 |
| 公開(公告)號: | CN111680492A | 公開(公告)日: | 2020-09-18 |
| 發(fā)明(設(shè)計(jì))人: | 張發(fā)恩;魏暢毅 | 申請(專利權(quán))人: | 創(chuàng)新奇智(青島)科技有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/253;G06F40/289;G06F16/33 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 蔣姍 |
| 地址: | 266200 山東省青島市*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 新詞 挖掘 方法 裝置 電子設(shè)備 | ||
1.一種新詞挖掘方法,其特征在于,包括:
獲取目標(biāo)語料;
對所述目標(biāo)語料進(jìn)行分詞處理,得到待處理詞語;
對各所述待處理詞語建立句法依存關(guān)系;
依據(jù)所述句法依存關(guān)系從各所述待處理詞語中提取出滿足預(yù)設(shè)依存關(guān)系的待處理詞語,組成候選新詞;
從所述候選新詞中去除掉干擾元素,得到目標(biāo)新詞;所述干擾元素為根據(jù)預(yù)設(shè)規(guī)則需要去除掉的所述候選新詞中的待處理詞語。
2.如權(quán)利要求1所述的新詞挖掘方法,其特征在于,對所述目標(biāo)語料進(jìn)行分詞處理,得到待處理詞語,包括:
使用分詞算法對所述目標(biāo)語料進(jìn)行分詞處理;
去除經(jīng)過所述分詞處理后得到的各詞語中的停用詞,得到所述待處理詞語。
3.如權(quán)利要求1所述的新詞挖掘方法,其特征在于,對各所述待處理詞語建立句法依存關(guān)系,包括:
以各待處理詞語所屬的句子為單位,構(gòu)建每一個句子中各待處理詞語的句法依存關(guān)系;
對應(yīng)的,依據(jù)所述句法依存關(guān)系從各所述待處理詞語中提取出滿足預(yù)設(shè)依存關(guān)系的待處理詞語,組成候選新詞,包括:
依據(jù)每一個句子中各待處理詞語的句法依存關(guān)系,從各句子中提取出滿足預(yù)設(shè)依存關(guān)系的待處理詞語,組成每一個句子所對應(yīng)的候選新詞。
4.如權(quán)利要求1所述的新詞挖掘方法,其特征在于,依據(jù)所述句法依存關(guān)系從各所述待處理詞語中提取出滿足預(yù)設(shè)依存關(guān)系的待處理詞語,組成候選新詞,包括:
提取具有定中關(guān)系的各待處理詞語,將各待處理詞語按照各自對應(yīng)的定中關(guān)系,與提取出的其余待處理詞語組成所述候選新詞;
或,提取滿足定中關(guān)系和狀中關(guān)系的各待處理詞語,將各待處理詞語按照各自對應(yīng)的定中關(guān)系或狀中關(guān)系,與提取出的其余待處理詞語組成所述候選新詞;
或,提取滿足定中關(guān)系、狀中關(guān)系和核心關(guān)系的各待處理詞語,將各待處理詞語按照各自對應(yīng)的定中關(guān)系或狀中關(guān)系或核心關(guān)系,與提取出的其余待處理詞語組成所述候選新詞。
5.如權(quán)利要求1-4任一項(xiàng)所述的新詞挖掘方法,其特征在于,從所述候選新詞中去除掉干擾元素,得到目標(biāo)新詞,包括:
按照預(yù)設(shè)的句法規(guī)則和預(yù)設(shè)的目標(biāo)領(lǐng)域規(guī)則,從所述候選新詞中去除掉干擾元素,得到目標(biāo)新詞;所述預(yù)設(shè)的目標(biāo)領(lǐng)域規(guī)則為預(yù)設(shè)的所述目標(biāo)語料所屬領(lǐng)域的領(lǐng)域規(guī)則。
6.如權(quán)利要求5所述的新詞挖掘方法,其特征在于,按照預(yù)設(shè)的句法規(guī)則從所述候選新詞中去除掉干擾元素,包括:
檢測所述候選新詞中是否存在預(yù)設(shè)的需排除詞語;
若存在,去除掉所述候選新詞中的所述需排除詞語。
7.如權(quán)利要求5所述的新詞挖掘方法,其特征在于,按照預(yù)設(shè)的目標(biāo)領(lǐng)域規(guī)則從所述候選新詞中去除掉干擾元素,包括:
檢測所述候選新詞中是否存在具有并列關(guān)系的待處理詞語;
若存在,去除掉所述候選新詞中位于所述并列關(guān)系內(nèi)的待處理詞語。
8.如權(quán)利要求1-4任一項(xiàng)所述的新詞挖掘方法,其特征在于,所述目標(biāo)語料為文檔題目和/或文檔摘要。
9.一種新詞挖掘裝置,其特征在于,包括:獲取模塊、分詞模塊、句法依存模塊和處理模塊;
所述獲取模塊,用于獲取目標(biāo)語料;
所述分詞模塊,用于對所述目標(biāo)語料進(jìn)行分詞處理,得到待處理詞語;
所述句法依存模塊,用于對各所述待處理詞語建立句法依存關(guān)系;
所述處理模塊,用于依據(jù)所述句法依存關(guān)系從各所述待處理詞語中提取出滿足預(yù)設(shè)依存關(guān)系的待處理詞語,組成候選新詞;從所述候選新詞中去除掉干擾元素,得到目標(biāo)新詞;所述干擾元素為根據(jù)預(yù)設(shè)規(guī)則需要去除掉的所述候選新詞中的待處理詞語。
10.一種電子設(shè)備,其特征在于,包括數(shù)據(jù)接口、處理器、存儲器及通信總線;
所述數(shù)據(jù)接口用于獲取目標(biāo)語料;
所述通信總線用于實(shí)現(xiàn)所述數(shù)據(jù)接口、處理器和存儲器之間的連接通信;
所述處理器用于執(zhí)行存儲器中存儲的一個或者多個程序,以實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述的新詞挖掘方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于創(chuàng)新奇智(青島)科技有限公司,未經(jīng)創(chuàng)新奇智(青島)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010522871.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





