[發明專利]短語提取文本分析方法和系統有效
| 申請號: | 201810590460.2 | 申請日: | 2018-06-09 |
| 公開(公告)號: | CN109145285B | 公開(公告)日: | 2023-01-31 |
| 發明(設計)人: | P·M·帕拉蘭達;S·德 | 申請(專利權)人: | 通用汽車環球科技運作有限責任公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 姜云霞;鄧雪萌 |
| 地址: | 美國密*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 短語 提取 文本 分析 方法 系統 | ||
一種用于從文本中提取相關短語的系統和方法。系統和方法可以通過將來自種子列表的種子用作每個n元語法短語的開始、中間或結尾來構建多個n元語法短語。種子列表可以針對特定的車輛系統,并且每個種子可以指示表征、部分或動作,以便從車輛信息逐字記錄提取相關短語。多個n元語法短語可以被過濾以獲得一個或多個相關短語。過濾過程可以包括計算外部相關性因子、內部相關性因子或上下文模式相關性因子。
引言
本技術領域涉及文本分析,并且更具體地涉及用于識別與車輛信息有關的相關短語的系統和方法。
諸如服務記錄、質保索賠和客戶意見數據的車輛信息可以采用多種形式,并且對于一隊車輛可能存在與此類信息有關的大量文檔。此類信息的有效處理可以減少不相關的或無用的短語,并且減少處理時間和內存密集型計算需求。
發明內容
根據一個實施例,提供了一種用于從文本中提取相關短語的方法,其包含以下步驟:訪問來自數據庫的車輛信息逐字記錄、標記車輛信息逐字記錄以及構建來自車輛信息逐字記錄的多個n元語法短語。多個n元語法短語包括來自種子列表的種子,其作為多個n元語法短語的每個n元語法短語的開始、中間或結尾。種子列表包括多個種子,每個種子針對車輛相關部件或車輛相關功能。方法進一步包括過濾多個n元語法短語以獲得相關短語或不相關短語。
在一個更具體的實施例中,種子列表針對特定的車輛系統。
在另一個更具體的實施例中,種子識別表征、部分或動作。
在另一個更具體的實施例中,過濾步驟包括計算外部相關性因子。
在另一個更具體的實施例中,執行訓練階段和測試階段,并且外部相關性因子考慮訓練階段中具有相同長度的n元語法短語的總數、測試階段中具有相同長度的n元語法短語的總數、訓練階段中的單詞序列的頻率以及測試階段中的單詞序列的頻率。
在另一個更具體的實施例中,過濾步驟包括計算內部相關性因子。
在另一個更具體的實施例中,內部相關性因子考慮數據庫中車輛信息的術語頻率-逆文檔頻率(tf-idf)分析。
在另一個更具體的實施例中,過濾步驟包括計算上下文模式相關性因子。
在另一個更具體的實施例中,上下文模式相關性因子是取決于n元語法短語是否具有相關詞性(POS)標簽序列或不相關POS標簽序列的二進制值。
在另一個更具體的實施例中,過濾步驟包括計算外部相關性因子、內部相關性因子和上下文模式相關性因子。
在另一個更具體的實施例中,弱過濾規則集用于聯合地考慮外部相關性因子、內部相關性因子和上下文模式相關性因子,使得如果對于外部相關性因子、內部相關性因子和上下文模式相關性因子中的每一個滿足不相關閾值,則n元語法短語是不相關的。
在另一個更具體的實施例中,強過濾規則集用于分離地考慮外部相關性因子、內部相關性因子和上下文模式相關性因子,使得如果對于外部相關性因子、內部相關性因子和上下文模式相關性因子中的其中一個滿足不相關閾值,則n元語法短語是不相關的。
在另一個更具體的實施例中,方法進一步包括根據每個詞的屬性和數據組織系統中的詞之間的關系對領域中的相關短語中的詞進行分類的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于通用汽車環球科技運作有限責任公司,未經通用汽車環球科技運作有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810590460.2/2.html,轉載請聲明來源鉆瓜專利網。





