下一站–建立從邊緣到洞察的資料管道

語言: CN / TW / HK

這是本部落格系列的第2部分。您可以在此處閱讀第1部分:數字化轉型是從邊緣到洞察力的資料之旅

該部落格系列跟蹤了互聯汽車製造商的製造、運營和銷售資料,這些資料經歷了大型製造公司在當前技術領先水平上通常經歷的階段和轉換。第一個部落格介紹了一個模擬互聯汽車製造公司,即電動汽車公司(ECC),以說明貫穿資料生命週期的製造資料路徑。為此,ECC利用Cloudera資料平臺(CDP)來預測事件,並在全球範圍的工廠中自上而下地檢視汽車的製造過程。 

在上一個部落格中完成了“資料收集”步驟之後,ECC在資料生命週期中的下一步就是“資料豐富化”。ECC將豐富收集到的資料,並將在以後的資料生命週期中將其用於分析和模型建立。以下是資料生命週期中的所有步驟,並且生命週期中的每個步驟都將由專門的部落格文章支援(見圖1):

  1. 資料收集 –邊緣處的資料攝取和監控(邊緣是工業感測器還是車輛陳列室中的人員)

  2. 資料豐富–資料管道處理、聚合和管理,以準備資料進行進一步分析

  3. 報告–提供業務洞察力(銷售分析和預測、預算編制為例)

  4. 服務–控制和執行基本業務操作 (經銷商操作、生產監控) 

  5. 預測分析–基於AI和機器學習的預測分析(預測維護,基於需求的庫存優化為例)

  6. 安全與治理–在整個資料生命週期中的一組整合的安全,管理和治理技術

圖1企業資料生命週期

資料豐富的挑戰

ECC需要對與製造、經銷商運營和車輛運輸有關的所有資料有一個全面的瞭解和深入瞭解。他們還需要快速識別資料問題,例如操作感測器分離出資料,其中可能包括由於計劃外的機器停機或突然啟動而導致的虛假溫度峰值。例如,在分析過程中不應考慮與維護人員在進行例行檢查時從酸洗池中卸下感測器時與過程無關的資料。 

此外,ECC面臨以下資料挑戰,要成功地通過其供應鏈轉移電動機制造,就必須解決這些挑戰。這些資料挑戰包括:

  • 從不同來源檢索各種格式的資料資料工程管道要求從各種來源以許多不同的格式引入資料。無論資料是來自生產線上的感測器,支援製造操作的感測器,還是控制供應鏈的ERP資料,都必須將它們彙總在一起以進行進一步分析。

  • 過濾掉冗餘或不相關的資料:刪除重複或無效資料,並確保剩餘資料的準確性,是準備將資料進一步用於高階預測分析的關鍵步驟。

  • 識別效率低下的流程的能力ECC要求能夠檢視哪些資料流程佔用了最多的時間和資源,從而可以輕鬆地針對性能不佳的部分進行定位,從而加快整個流程。

  • 能夠從單個窗格監視所有流程:ECC需要一個集中式系統,該系統允許他們監視所有正在進行的資料流程,以及在保持透明度的同時擴充套件其當前基礎結構的途徑。 

精心策劃的高質量資料集是任何高階分析計劃的骨幹。為此,必須使用資料工程框架來建立在資料生命週期中移動、操縱和管理不同車輛部件的資料所需的所有管道和管道。

使用Cloudera資料工程構建管道

豐富和討論資料之前,我們在第一個部落格中將從工廠收集的IT和OT資料流進行清理、操作和修改。可以從印在電動機上的QR碼捕獲工廠ID,機器ID,時間戳,零件號和序列號。當電動機組裝到連線的車輛中時,將捕獲諸如模型型別,VIN和基本車輛成本之類的資料。

售出車輛後,將分別記錄銷售資訊,例如客戶名稱、聯絡資訊、最終銷售價格和客戶位置。此資料對於聯絡客戶進行任何潛在的召回或有針對性的預防性維護至關重要。還儲存了地理位置資料,這將有助於將客戶位置對映到緯度和經度,以更好地瞭解這些電機在汽車中出售後的位置。

ECC將使用Cloudera資料工程(CDE)來解決上述資料挑戰(見圖2)。然後,CDE會將資料提供給Cloudera Data Warehouse(CDW),在此處將其提供給高階分析和商業智慧報告。CDE步驟概述如下。

圖2 ECC資料豐富管道

步驟1:過濾和分離資料

使用CDE的第一步是建立一個PySpark作業,該作業將從步驟1的各種“原始”資料中獲取資料。這是一個機會,可以過濾掉任何不相關的資料,例如16歲以下的客戶,因為16歲通常是最低駕駛年齡。重複的資料和其他不相關的資料也可以被過濾或分離出來。

步驟2:合併資料

為了合併所有資料,CDE會將公共連結關聯在一起。首先,將汽車銷售資料繫結到購買汽車的客戶中,以獲取客戶元資料,例如聯絡資訊、年齡、薪水等。然後,將使用地理位置資料來為客戶獲取更精確的位置資訊,這將有助於以後對映電動機。零件安裝資料將用於識別客戶汽車中安裝的每個電動機的序列號。最後,工廠資料將對齊以匹配電動機的序列號,該序列號將標識哪個工廠、機器以及何時建立每個特定的電動機。

步驟3:將資料傳送到Cloudera資料倉庫

一旦將所有資料彙總到一個擴充套件表中,一個簡單的Apache Spark命令便會將資料寫入Cloudera Data Warehouse中的新表中。這將使任何想要訪問資料以進行其他分析的資料科學家都可以訪問該資料。

步驟4:生成資料視覺化儀表板和報告

將資料全部集中在一個地方,現在就可以建立報告,使員工可以做出更明智的決策,並開放不存在的功能。可以製作熱圖來跟蹤電動機的位置,並將任何問題與潛在的地理位置相關聯,例如由於極冷或高溫導致的故障。如果某個工廠在某個時間範圍內出現問題,此資料還可以用來精確跟蹤可能影響哪些客戶,從而輕鬆地跟蹤可能需要召回或進行預防性維護的客戶。

結論

Cloudera Data Engineering使ECC能夠建立可與製造和零件資料,客戶使用型別,環境條件,銷售資訊等相關的管道,以提高客戶滿意度和車輛可靠性。ECC通過跟蹤與電機制造相關的資料並通過以下方式受益,從而實現了其目標並解決了其挑戰:

  • ECC通過編排和自動化資料管道來快速實現價值,以從各種資料來源安全透明地交付精選的高質量資料集。

  • ECC能夠識別相關資料並過濾掉任何冗餘和重複的資料。

  • ECC能夠從一個窗格中實現資料管道監控,同時能夠通過視覺化故障排除被提醒儘早發現問題,從而在業務受到影響之前快速解決問題。

下一個部落格將深入研究Reporting,該部落格將展示ECC工程師如何針對這些選定的資料在CDW中執行臨時查詢,以及如何將資料與企業資料倉庫中的其他相關源結合起來。CDW有助於將所有資料整合在一起,並提供了一個內建的資料視覺化工具,可將查詢結果轉換為儀表板。請繼續關注下一個!

更多資源

要檢視所有這些操作,請單擊下面的相關連結以瞭解更多資料豐富資訊:

  • 視訊 –如果您想檢視和了解其構建方式,請參閱連結中的視訊。

  • 教程–如果您希望按照自己的節奏進行操作,請檢視詳細的演練,其中包括螢幕截圖和逐行說明,以瞭解如何進行設定和執行。

  • 聚會-如果你想與專家Cloudera的直接對話,請加入虛擬聚會看現場直播演示。最後會有時間進行直接問答。

    • 使用者–要檢視特定於使用者的更多技術內容,請單擊連結。

原文作者:Tui Leauanae

原文連結:https://blog.cloudera.com/next-stop-building-a-data-pipeline-from-edge-to-insight/



本文分享自微信公眾號 - 大資料雜貨鋪(bigdataGrocery)。
如有侵權,請聯絡 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。