[發明專利]地點提取方法、裝置、電子設備及計算機可讀存儲介質有效
| 申請號: | 202010083644.7 | 申請日: | 2020-02-07 |
| 公開(公告)號: | CN111309861B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 席麗娜;王文軍;李德彥 | 申請(專利權)人: | 鼎富智能科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F18/241;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 蔣姍 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地點 提取 方法 裝置 電子設備 計算機 可讀 存儲 介質 | ||
本發明涉及一種地點提取方法、裝置、電子設備及計算機可讀存儲介質,屬于文本處理領域。該方法包括:在獲取到待處理文本后,將待處理文本輸入預先創建的序列模型,由序列模型篩選出地點。由于訓練序列模型的訓練集包括各個粒度的地點標簽,因此,對于得到的序列模型而言,能夠分別充分學習到各種范圍等級的地點的特征。當把任務判決文書文本輸入序列模型后,序列模型可以從中篩選出不同的范圍等級的地點,避免出現很多小的地點抽取不到或者長的地點抽取不全的情況。
技術領域
本申請屬于文本處理領域,具體涉及一種地點提取方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
在刑事類判決文書文本中,往往需要用大量的文字去描述一個復雜的案件。在這些文字中,存在與案情相關的地點。由于用于描述地點的文字一般較為繁瑣,給閱讀的相關人員在理清案情的來龍去脈時造成了閱讀障礙,極大增加了閱讀者的工作量。為了解決上述問題,通常通過訓練好的神經網絡模型去提取判決文書文本中的地點。
現有技術在訓練神經網絡模型時,一般先對大量的任務文本語料添加用于表征是否為地點的標簽,然后以大量的添加標簽后的任務文本語料為訓練集對神經網絡模型進行訓練。
然而在實際任務文本語料中,地點的表達式多種多樣,長短不一,而在得到訓練集時,都是用同一種標簽對任務文本語料所包括的地點進行標注,會使得標簽對應的地點類型多樣化,無形中增大了神經網絡模型的學習難度,導致后續通過訓練好的神經網絡模型提取判決文書文本中的地點時,出現很多小的地點抽取不到或者長的地點抽取不全的情況,從而達不到最理想的提取效果。
發明內容
有鑒于此,本申請的目的在于提供一種地點提取方法、裝置、電子設備及計算機可讀存儲介質,可以篩選出不同的范圍等級的地點,避免出現很多小的地點抽取不到或者長的地點抽取不全的情況。
本申請的實施例是這樣實現的:
第一方面,本申請實施例提供一種地點提取方法,所述方法包括:獲取待處理文本;將所述待處理文本輸入預先創建的序列模型,篩選出不同粒度的地點;其中,用于訓練所述序列模型的訓練集所包括的每個樣本所包括的每個字符添加有地點標簽,所述地點標簽用于表征該字符是否為地點,組成所述訓練集的多個樣本所包括的地點標簽的粒度不同。由于訓練集包括各個粒度的地點標簽,因此,對于得到的序列模型而言,能夠分別充分學習到各種范圍等級的地點的特征。當把任務判決文書文本輸入序列模型后,序列模型可以從中篩選出不同的范圍等級的地點,避免出現很多小的地點抽取不到或者長的地點抽取不全的情況。
結合第一方面實施例,在一種可能的實施方式中,在所述獲取待處理文本之前,所述方法還包括:獲取所述樣本;響應用戶的標簽添加指令,對所述樣本所包括的每個字符添加所述地點標簽,所述地點標簽用于表征該字符是否為地點;將多個所述樣本組成所述訓練集后輸入第一網絡模型進行訓練,得到用于進行地點篩選的所述序列模型。
結合第一方面實施例,在一種可能的實施方式中,在所述響應用戶的標簽添加指令之前,所述方法還包括:對所述樣本所包括的錯誤字符進行校正。以避免對后續訓練得到的模型的效果產生過多影響。
結合第一方面實施例,在一種可能的實施方式中,在所述對所述樣本所包括的每個字符添加所述地點標簽之后,所述方法還包括:對所述樣本所包括的每個地點添加分類標簽,所述分類標簽用于表征該地點是否為需要的地點;將添加有所述分類標簽的所述訓練集輸入第二網絡模型進行訓練,得到用于進行地點分類的分類模型。添加分類標簽后可以用于訓練出分類模型。
結合第一方面實施例,在一種可能的實施方式中,在所述篩選出不同粒度的地點之后,所述方法還包括:將所述不同粒度的地點輸入所述分類模型,篩選出需要的地點。訓練得到的分類模型可以對待處理文本中與案情相關的地點以及與案情不相關的地點進行分類,從而篩選出與案情相關的地點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎富智能科技有限公司,未經鼎富智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010083644.7/2.html,轉載請聲明來源鉆瓜專利網。





