[發明專利]針對頭銜標準化的與語言無關的機器學習模型在審
| 申請號: | 201910909805.0 | 申請日: | 2019-09-25 |
| 公開(公告)號: | CN110956253A | 公開(公告)日: | 2020-04-03 |
| 發明(設計)人: | S·A·喬爾;U·默哈夫;D·沙查姆 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06F16/9532 |
| 代理公司: | 永新專利商標代理有限公司 72002 | 代理人: | 張立達 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 針對 頭銜 標準化 語言 無關 機器 學習 模型 | ||
在示例實施例中,提供了一種系統,機器學習模型通過該系統被訓練以預測針對給定原始頭銜的標準化??梢杂柧氁环N神經網絡,該神經網絡的輸入是原始頭銜(例如,查詢字符串)以及候選頭銜列表(分類法中的頭銜標識、或英語字符串),其產生該原始頭銜和每個候選頭銜屬于同一頭銜的概率。該模型能夠以在訓練數據中包含的任何語言將頭銜標準化,而無需首先對頭銜進行語言識別或規范化。另外地,該模型能夠受益于“外來詞”(從外語中采用的詞,其具有很少或沒有修改)的存在以及語言之間的關系。
技術領域
本公開內容一般涉及用于解決在分析社交網絡中的分類數據時的技術挑戰的計算機技術。更加具體地,本公開涉及用于針對標準化的與語言無關的機器學習模型。
背景技術
互聯網的興起引發了兩種截然不同的現象:社交網絡的出現的增加,其中,其對應的成員簡檔對大量人可見;以及使用這些社交網絡來執行針對人員和公司的搜索的增加?;诟鞣N分類法中的實體來將成員(例如,個人或公司)簡檔的各種屬性標準化是很常見的。例如,可以為公司列出一個行業,其中,該行業是從行業分類法中的多個條目(即由社交網絡服務保存的數據結構)中選擇的。該行業分類法可以包括可能的行業的層級組織。例如,行業分類法中的“信息技術”行業類別可以具有“計算機軟件”、“計算機硬件”、和“計算機網絡”的子類別。行業分類法可以將所述子類別組織成與“信息技術”父節點相對應的子節點。在行業分類法中可以存在許多層類別和子類別。
當然,行業只是能夠被分配給分類法中的實體的成員屬性的一個示例。其他的示例包括職位頭銜、學校、技能等。常常用于分析候選項和職業的一個重要的成員屬性是職位頭銜(或者更簡單地說,只是“頭銜”)。頭銜的標準化對分析是重要的,因為某些頭銜可能聽起來很類似,但又非常不同(例如,“軟件工程師”與火車工程師是非常不同的工作,火車工程師通常僅被稱為“工程師”)。
另外地,用戶可能來自世界各地,并且在用許多不同的語言中的一種來鍵入他們的頭銜。用于將頭銜標準化的許多模型依賴于將復雜頭銜分解成帶有含義的單個詞語的能力。例如,在英語中,“software engineer(軟件工程師)”由兩個單獨的詞語組成,每個詞語帶有不同的含義。然而,其他語言不以該方式來分隔詞語。例如,在德語中,針對“softwareengineer”的術語可能是“Softwareentwickler”,這是因為德語中有所謂的“復合名詞”。諸如中文之類的語言在詞語之間沒有空格。當然,即使是英語有時也會有復合名詞(例如,bedroom(臥室)),但它們在英語中比在其他語言中要少得多。
針對每種語言使用不同的模型會產生的技術問題在于,針對頭銜的任何給定語言的數據可能都不足以提供可靠的結果。因此,在試圖標準化采用另一種語言的術語時,能夠利用在一種語言中了解到的術語的某些方面在技術上是有利的。
附圖說明
作為示例而非限制,在附圖的圖中示出了本技術的一些實施例。
圖1是示出了根據示例實施例的客戶端-服務器系統的框圖。
圖2是示出了與本公開的一些實施例一致的社交網絡服務的功能性組件的框圖,所述功能性組件包括在本文中被稱為搜索引擎的數據處理模塊,其在生成和提供針對搜索查詢的搜索結果時使用。
圖3是更加詳細地示出了根據示例實施例的應用服務器模塊的框圖。
圖4是更加詳細地示出了根據示例實施例的機器學習組件的框圖。
圖5是示出了根據示例實施例的深度卷積神經網絡(DCNN)的圖。
圖6是示出了根據示例實施例的方法的流程圖。
圖7是示出了軟件架構的框圖,該軟件架構可以被安裝在上文所描述的設備中的一個或多個上。
圖8示出了根據示例實施例的采用計算機系統的形式的機器的圖解表示,在該計算機系統中,可以執行一組指令以使得機器執行在本文中所討論的方法中的任何一個或多個方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910909805.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車身前部結構
- 下一篇:用于半自主車輛的操控信號的確定





