Narzędzia ETL – czym są i jak zacząć z nich korzystać?
W pracy z danymi często napotykamy na wiele problemów. Najważniejsze to rozproszenie danych w różnych systemach oraz ich jakość. Rozproszone dane nie pozwalają nam spojrzeć na wszystkie aspekty biznesu jednocześnie. Dane z systemów księgowych, CRM, sprzedaży, dane trzymane w plikach lokalnych użytkowników – analiza tych danych i wyciąganie z nich właściwych wniosków staje się w takim środowisku bardzo trudne. W takiej sytuacji pojawia się pytanie: jak to wszystko połączyć?
Czym jest GIGO?
Optymalnym efektem byłaby jedna baza danych, zawierająca wszystkie dane, tak abyśmy mogli w prosty sposób przetwarzać je, wizualizować i analizować.
Drugim aspektem problemów związanych z danymi jest ich jakość. Ten problem doskonale przedstawia zdanie: Garbage in = Garbage out (śmietnik na wejściu = śmietnik na wyjściu). Ten przemawiający do wyobraźni termin oznacza, że jeśli nie zadbamy o jakość danych na wejściu do narzędzia analitycznego, na końcu otrzymamy równie mało jakościowy efekt.
Specyfika ETL
ETL jest skrótem, na który składają się trzy etapy procesowania danych, aby finalnie mieć dane dostępne w jednym dobrym jakościowo źródle. Akronim ten oznacza:
- E(kstrakcję), czyli wyciągnięcie danych z rozproszonych źródeł;
- T(ransformację), czyli ich przekształcenie, oczyszczenie oraz implementację reguł biznesowych;
- L(Ładowanie) danych do jednego źródła, np. do hurtowni danych.
Wykorzystałeś swój limit bezpłatnych treści
Pozostałe 83% artykułu dostępne jest dla zalogowanych użytkowników portalu. Zaloguj się, wybierz plan abonamentowy albo kup dostęp do artykułu/dokumentu.