[發明專利]一種基于NLP的企業供應關系自動抽取分析方法有效
| 申請號: | 201811277652.4 | 申請日: | 2018-10-30 |
| 公開(公告)號: | CN109376202B | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 王金龍;楊傳龍;房斐斐;張云天 | 申請(專利權)人: | 青島理工大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F40/211;G06F40/295 |
| 代理公司: | 青島高曉專利事務所(普通合伙) 37104 | 代理人: | 黃曉敏;于正河 |
| 地址: | 266061 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 nlp 企業 供應 關系 自動 抽取 分析 方法 | ||
1.一種基于NLP的企業供應關系自動抽取分析方法,其特征在于具體過程包括公司名稱識別、產品名稱識別和供求關系判斷三個步驟,具體為:
(一)公司名稱識別:
(1)文本處理:讀取年報自然句,使用哈工大的LTP自然語言處理工具對該句進行分詞、詞性標注、依存句法分析處理分別得到分詞結果、詞性標注結果、依存句法分析結果,將得到的分詞結果作為Stanford NER的輸入源進行公司名稱識別;
(2)公司名稱識別:將分詞結果輸入Stanford NER提供的條件隨機場模型和自構建的公司名稱詞典進行公司名稱匹配識別,將識別結果在分詞結果上進行匯總整合得到公司名稱識別結果;
(3)公司實體組處理:
(31)獲?。簩ξ谋咎幚聿襟E中得到的依存句法分析結果中具有直接或間接并列關系的詞放到一起形成并列詞組并組成候選實體組;
(32)篩選:根據公司名稱識別結果和公司實體組的詞性特征判斷該候選實體組是不是一個公司實體組并進行篩選;公司實體組的篩選按照以下兩點規則進行:一是:如果候選實體組中的一個并列詞組為一個公司實體組,那么該詞組至少要有一個詞語在公司名稱識別階段被標注為公司名;二是:公司實體組中至少含有一個詞性為其他專有名詞的詞;
(33)規則后處理:
(331)將公司實體組中未標注為公司名稱的詞語標注為公司名,將非公司實體組的并列詞組中標注為公司名稱的詞語標注為非公司名;
(332)利用依存句法補全新擴展出的公司名,主要是利用句法規則補全新擴展出的公司名,當公司實體組中的詞被重新標注為公司名時,考慮到公司名的完整性,對該公司名的左邊界進行重新計算,判斷當前詞與其左側第一個詞之間的依存關系,若為定中關系,則把其左側的詞也標注為公司名;
(二)產品名稱識別:
(1)文本處理:讀取年報自然句,使用哈工大的LTP自然語言處理工具對該句進行分詞、詞性標注、依存句法分析處理分別得到分詞結果、詞性標注結果、依存句法分析結果;
(2)產品名稱識別:使用現有CRF++0.58開源工具包來構建條件隨機場模型進行產品名稱識別,具體過程為:
(21)實體類別標注:使用BIEO標注方式來對語料進行標注,用B_PRODUCT標簽來標注產品名稱的左邊界,用E_PRODUCT標簽來標注產品名稱的右邊界,用I_PRODUCT標簽來標注左邊界和右邊界的中間字符,用O標簽來標注其他的非產品名稱的詞語;其中語料是指用于訓練條件隨機場模型所需的人工標注的語料;
(22)語料庫構建:先讀取語料文本,對文本中的每條自然句使用哈工大LTP自然語言處理對其進行分詞、詞性標注;再人工對分詞結果進行產品名稱標注,遍歷分詞結果,當該詞出現在邊界詞表中時,邊界詞特征為Y,否則為N;然后遍歷分詞結果,當該詞出現在產品名稱詞表中時,詞典特征為Y,否則為N;將分詞、詞性、邊界詞特征、詞典特征、人工標注組合為一行token,將每個自然句的處理結果之間空一行,一行表示一個token,每個token包含多個特征,各個特征之前以空格或者制表符來間隔,最后一個特征為類別標簽,也就是需要訓練的正確的標注;在訓練語料的文本進行人工標注后,還需要對語料格式進行轉換后才能輸入到CRF++0.58中進行訓練;
(23)條件隨機場模型特征選取:選取詞特征、詞性特征、邊界詞特征和詞典特征用于條件隨機場模型的訓練,其中詞特征表示當前詞自身,或者是與左右窗口中其他詞的組合;詞性特征是指把詞的特點當做依據從而劃分詞類的依據,包含名詞、動詞、形容詞、副詞、連詞、介詞;邊界詞特征是指出現在產品名稱附近的詞特征;詞典采用與公司識別過程中相同的構建方法進行構建;
(3)規則后處理:
(31)利用哈工大LTP對自然句進行依存句法分析,通過對結果的分析,找出句子中具有并列關系的實體,確定潛在實體組,一個句子中的潛在實體組可能有多個{G1,G2…Gn},n為句中實體組的總數,其中的任意一個實體組Gi={e1,e2…em},其中ei表示實體,i=1,2,…m,其中任意一個實體又包含一個或多個單詞;自然句指以分號、句號、問號分割的單句;
(32)遍歷每一個潛在實體組,如果該實體組中有實體被條件隨機場模型標注為產品名稱,那么該潛在實體組就是一個產品名稱實體組,那么組中其他實體也是產品名稱;在把之前的未標注詞利用產品實體組標注為產品名稱時,需要通過判斷中心詞左側相鄰詞的句法關系是不是定中關系就可以判斷相鄰詞是否為產品修飾詞,并在進行產品名稱標注時將這些修飾詞標注出來;
(三)企業供求關系的判斷和抽?。?/p>
(1)文本篩選:一是篩選的文本中要包含自構建的供應關系關鍵詞庫中的詞,供應關系關鍵詞庫用于判斷文本的主題,當文本的主題中包含關鍵詞庫中的詞時,認為該文本的主題與供應關系相關;二是文本中至少要含有兩個公司名,并且這兩個公司實體間的關系不能為并列關系;
(2)實體語義關聯判斷:當確定文本主題與供應關系相關且文本中包含供應關系需要的基本信息后,需要判斷文本中各實體之前的語義關聯了,設一個句子中的公司集合C={c1,c2,…,cn},n為句子中公司數量,產品集合為P={p1,p2,…pm},m為句子中產品數量,則具體步驟如下:
(1)遍歷集合C,對于C中的每一個實體對ci,cj,判斷ci和cj之間是否存在語義關聯;
(2)對于存在語義關聯的公司實體對ci,cj,遍歷產品集合中的產品pk,當pk與實體對中任一一個公司實體存在語義關聯時,輸出ci,cj,pk;若在P中找不到該公司實體對對應的產品,則輸出ci,cj。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島理工大學,未經青島理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811277652.4/1.html,轉載請聲明來源鉆瓜專利網。





