[發明專利]一種政策文件結構化分解方法有效
| 申請號: | 201910766729.2 | 申請日: | 2019-08-19 |
| 公開(公告)號: | CN110609983B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 金耀初;何衛靈;劉華;張宏輝 | 申請(專利權)人: | 廣州利科科技有限公司 |
| 主分類號: | G06F40/143 | 分類號: | G06F40/143;G06F40/151;G06F40/289;G06F40/211;G06F40/253 |
| 代理公司: | 廣州智豐知識產權代理事務所(普通合伙) 44655 | 代理人: | 邱奕才 |
| 地址: | 510000 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 政策 文件 結構 化分 方法 | ||
本發明涉及自然語言處理技術領域,更具體地,涉及一種政策文件結構化分解方法,包括:步驟S1:獲取語料集;步驟S2:對語料集進行預處理;步驟S3:構建篇章結構樹;步驟S4:構建政策條件樹;步驟S5:根據篇章結構樹與政策條件樹構建新的建構樹,并且可視化。本方案通過語料預處理、詞性分析、句法分析,使政策文件被準確地理解。
技術領域
本發明涉及自然語言處理技術領域,更具體地,涉及一種政策文件結構化分解方法。
背景技術
自然語言是指漢語、英語、法語等人們日常使用的語言,是自然而然的隨著人類社會發展演變而來的語言,而不是人造的語言,它是人類學習生活的重要工具。概括說來,自然語言是指人類社會約定俗成的,區別于人工語言,如程序設計的語言。
自然語言處理(natural?language?processing,NLP),是指用計算機對自然語言的形、音、義等信息進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作和加工。自然語言處理的具體表現形式包括機器翻譯、文本摘要、文本分類、文本校對、信息抽取、語音合成、語音識別等。可以說,自然語言處理就是要計算機理解自然語言,自然語言處理機制涉及兩個流程,包括自然語言理解和自然語言生成。
當今社會,隨著信息技術的發展與互聯網的普及,大數據、云計算、人工智能已成為當前學術界的熱點課題。自然語言處理是人工智能中最為困難的問題之一,如何實現人機間的信息交流,智能地篩選、處理海量的數據是人工智能界、計算機科學和語言學界的技術突破重點。因為人類語言有其特殊性、復雜性,使機器理解人類語言是一項艱巨的任務。尤其在自然語言處理的領域里,機器理解中文遠比理解英文復雜的多。因此,如何使機器更好地解析中文,處理中文已成為了人工智能領域中無法繞開的難題。
當前各種形式的數據歸結為三類:非結構化數據,半結構化數據和結構化數據。結構化的數據容易推理,因為它的實體是隔離的;半結構化數據具有一定的結構性,提取實體的操作性高;非結構化的數據因為其結構的不確定性很難提取實體。實體通常指的是文本中具有特別意義或者指代性非常強的名詞短語或者動詞短語,通常包括人名、地名、機構名、時間、專有名詞等。政策文件就是非結構化的數據之一,因其非結構化的數據形式使其內容關系越來越復雜,不僅機器難以理解,企業或個人在理解的過程中很容易出現忽略或錯誤理解。在政策實行的過程中,政策文件的重要性不言而喻,要使政策得到有效執行,只有準確地傳達國家的政策,才能使人們對政策的意圖、實施政策的方法和步驟、政策實施的具體措施有明確的認識和充分的了解,才有可能讓人們積極主動地執行政策。而人工對政策文件進行解讀與標注不僅成本高昂,效率與質量還難以提高,并且也不利于往后智能問答、情感分析、知識圖譜構建等人工智能應用。因此,目前亟需一種能準確地理解政策文件的方法。
發明內容
為了解決上述問題,本發明提供一種政策文件結構化分解方法,該方法可對政策文件進行準確地理解。
本發明采取的技術方案是:
一種政策文件結構化分解方法,包括:
步驟S1:獲取語料集;
步驟S2:對語料集進行預處理;
步驟S3:構建篇章結構樹;
步驟S4:構建政策條件樹;
步驟S5:根據篇章結構樹與政策條件樹構建新的建構樹,并且可視化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州利科科技有限公司,未經廣州利科科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910766729.2/2.html,轉載請聲明來源鉆瓜專利網。





