[發明專利]一種面向文本的相對位置信息提取方法有效
| 申請號: | 202110479288.5 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113282767B | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 李霖;羅振威;朱海紅;沈航;金榜;李昭熹 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/387 | 分類號: | G06F16/387;G06F40/242;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 文本 相對 位置 信息 提取 方法 | ||
1.一種面向文本的相對位置信息提取方法,其特征在于:包括以下步驟,
步驟1、對獲取到的中文文本進行預處理,并進行分詞與標注;
步驟2、根據分詞與標注后的文本內容,利用雙向LSTM+條件隨機場模型+空間語義特征模板進行地名實體與相對位置信息提??;
步驟3、構建位置指示性信息詞典,制定地名命名實體和相對位置信息的識別規則,優化相對位置信息提取精度;具體包括:
步驟3.1:建立位置指示性信息的語言結構;將文本中具有空間關系的地理實體的語言結構以{Left,LOC_1,Middle,LOC_2,Right}的方式表示;其中LOC_1和LOC_2均表示地名實體,Left和Right表示地理命名實體在文本中的左右窗口詞,Middle作為表達二者空間關系的連接詞;地理實體本身就包含了空間位置信息,可以單獨存在;地理實體包括地名或機構名;而相對位置指示性的詞語是作為地理實體的描述或說明,必須和對應的地理實體搭配使用;
步驟3.2:構建位置指示性信息詞典;在漢語用詞習慣中,表達地理實體之間空間關系的詞語和文中的地名命名實體連用,或之間相隔描述性的形容詞;這種情況下,可以通過對文章中地理命名實體前后文出現的特征進行統計,發明位置指示性的詞匯與地理實體之間的關系;位置指示性詞典按照空間關系種類的不同進行排布;
步驟3.3:制定相對位置信息的識別規則;語義規則作為相對位置信息自動化提取的補充,其具體規則與所表達空間關系的類型相關;將文本中描述地理實體之間空間關系主要分為模糊關系、拓撲關系、方向關系、距離關系四類;提取到的每一個相對位置信息均可以根據其內容歸類到其中一項空間關系;
步驟3.4:根據相對位置信息語義識別規則,結合構建的位置指示詞匯詞典與這些詞在句子中的位置對文本中的標簽進行修改和補充,提升文本中位置信息識別的準確率;
步驟4、利用地理編碼技術將位置信息轉化為結構化地理數據展示在地圖上。
2.根據權利要求1所述的面向文本的相對位置信息提取方法,其特征在于:在步驟1中,文本內容僅限于中文文本,對于文本中夾雜漢語拼音、英文、繁體中文或其他語言,將進行刪除,將預處理后的文本數據,利用NLPIR分詞工具對文本內容進行分詞與詞性標注的操作。
3.根據權利要求1所述的面向文本的相對位置信息提取方法,其特征在于:在步驟2中,包括:
步驟2.1、首先利用BiLSTM+CRF模型對文本語料進行大規模訓練;訓練使用條件隨機場CRF++工具,通過制定合適的特征模板生成特征函數,利用條件隨機場模型的原理對文本中的數據進行訓練;其中,特征函數為二值函數,即函數的輸出值只有0和1兩種,公式表示為:
CRF++通過制定特征模板,選擇訓練過程中使用的特征和關系,生成對應的特征函數;每個特征模板會把可能的標記全部輸出一次,通過訓練確定標記的權重,當標記合理時特征函數輸出為1,對應權重較高,標記不合理時特征函數輸出0,對應權重較低;
步驟2.2、特征模板的設計決定了模型訓練效果的好壞;常用的模板包括一元特征模板、二元特征模板、復合特征模板,利用特征模板進行對比實驗,通過分析不同模板對于相同語料進行訓練后標注結果的評估,選擇其中表現較好的一組;本步驟需要制定多種特征模板對相同的語料進行訓練,綜合最終檢測出的準確率、召回率進行抉擇,選取合適的特征模板;
步驟2.3、利用獲取的訓練數據和選取的特征模板,對文本中的地名實體位置和相對位置指示性信息進行提取。
4.根據權利要求1所述的面向文本的相對位置信息提取方法,其特征在于:在步驟4中,模型提取的位置信息包括地理命名實體和相對位置信息兩部分;其中,地理命名實體代表著精確的固定位置,相對位置信息表達地理命名實體之間關系,并依附于命名實體而存在;在提取出文本中的地理實體以及相對位置關系之后,將其語義信息轉換為空間位置信息,并用地圖語言進行描述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110479288.5/1.html,轉載請聲明來源鉆瓜專利網。





