[發明專利]地點提取方法、裝置、電子設備及計算機可讀存儲介質有效
| 申請號: | 202010083644.7 | 申請日: | 2020-02-07 |
| 公開(公告)號: | CN111309861B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 席麗娜;王文軍;李德彥 | 申請(專利權)人: | 鼎富智能科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F18/241;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 蔣姍 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地點 提取 方法 裝置 電子設備 計算機 可讀 存儲 介質 | ||
1.一種地點提取方法,其特征在于,所述方法包括:
獲取待處理文本;
將所述待處理文本輸入預先創建的序列模型,篩選出不同粒度的地點;
其中,用于訓練所述序列模型的訓練集所包括的每個樣本所包括的每個字符添加有地點標簽,所述地點標簽用于表征該字符是否為地點,組成所述訓練集的多個樣本所包括的地點標簽的粒度不同,形成多種粒度的地點標簽,用于標注不同范圍等級的地點;地點范圍等級類型包括:完整詳細的地點、不完全完整和不完全詳細的地點以及最小級別的地點;當字符對應的地點標簽為所述完整詳細的地點時,表征該字符在其所屬的句子中為組成完整詳細的地點的字符;當字符對應的地點標簽為所述不完全完整和不完全詳細的地點時,表征該字符在其所屬的句子中為組成不完全完整或不完全詳細的地點的字符;當字符對應的地點標簽為所述完整詳細的地點時,表征該字符在其所屬的句子中為組成最小級別的地點的字符;
將所述不同粒度的地點輸入分類模型,篩選出需要的地點;
其中,所述訓練所述分類模型的訓練集所包括的每個樣本所包括的每個地點添加有分類標簽,所述分類標簽用于表征該地點是否為需要的地點。
2.根據權利要求1所述的方法,其特征在于,在所述獲取待處理文本之前,所述方法還包括:
獲取所述樣本;
響應用戶的標簽添加指令,對所述樣本所包括的每個字符添加所述地點標簽,所述地點標簽用于表征該字符是否為地點;
將多個所述樣本組成所述訓練集后輸入第一網絡模型進行訓練,得到用于進行地點篩選的所述序列模型。
3.根據權利要求2所述的方法,其特征在于,在所述響應用戶的標簽添加指令之前,所述方法還包括:
對所述樣本所包括的錯誤字符進行校正。
4.根據權利要求2所述的方法,其特征在于,在所述對所述樣本所包括的每個字符添加所述地點標簽之后,所述方法還包括:
對所述樣本所包括的每個地點添加分類標簽,所述分類標簽用于表征該地點是否為需要的地點;
將添加有所述分類標簽的所述訓練集輸入第二網絡模型進行訓練,得到用于進行地點分類的分類模型。
5.根據權利要求1所述的方法,其特征在于,在所述篩選出需要的地點之后,所述方法還包括:
在所述待處理文本中將所述需要的地點進行突出顯示。
6.一種地點提取裝置,其特征在于,所述地點提取裝置包括:獲取模塊以及篩選模塊;
所述獲取模塊,用于獲取待處理文本;
所述篩選模塊,用于將所述待處理文本輸入預先創建的序列模型,篩選出不同粒度的地點;
其中,用于訓練所述序列模型的訓練集所包括的每個樣本所包括的每個字符添加有地點標簽,所述地點標簽用于表征該字符是否為地點,組成所述訓練集的多個樣本所包括的地點標簽的粒度不同,形成多種粒度的地點標簽,用于標注不同范圍等級的地點;地點范圍等級類型包括:完整詳細的地點、不完全完整和不完全詳細的地點以及最小級別的地點;當字符對應的地點標簽為所述完整詳細的地點時,表征該字符在其所屬的句子中為組成完整詳細的地點的字符;當字符對應的地點標簽為所述不完全完整和不完全詳細的地點時,表征該字符在其所屬的句子中為組成不完全完整或不完全詳細的地點的字符;當字符對應的地點標簽為所述完整詳細的地點時,表征該字符在其所屬的句子中為組成最小級別的地點的字符;
所述篩選模塊,還用于將所述不同粒度的地點輸入分類模型,篩選出需要的地點;其中,所述訓練所述分類模型的訓練集所包括的每個樣本所包括的每個地點添加有分類標簽,所述分類標簽用于表征該地點是否為需要的地點。
7.根據權利要求6所述的地點提取裝置,其特征在于,所述地點提取裝置還包括響應模塊以及訓練模塊;
所述獲取模塊,還用于獲取所述樣本;
所述響應模塊,用于響應用戶的標簽添加指令,對所述樣本所包括的每個字符添加所述地點標簽,所述地點標簽用于表征該字符是否為地點;
所述訓練模塊,用于將多個所述樣本組成所述訓練集后輸入第一網絡模型進行訓練,得到用于進行地點篩選的所述序列模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎富智能科技有限公司,未經鼎富智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010083644.7/1.html,轉載請聲明來源鉆瓜專利網。





