Poznaj swoje dane, czyli profilowanie w Power Query
Power Query to zaskakująco wydajne narzędzie do przekształcania danych. Nieco mniej popularna jest w nim funkcja umożliwiająca szybką analizę struktury danych, aby upewnić się, czy ich kształt nie odbiega od naszych założeń.
Czy jest możliwe, żeby kucharz nie znał właściwości składników swojej potrawy? Teoretycznie tak, ale niewiele różni się wtedy od robota, do którego wsypujemy wszystko, co przepis każe, a on według zadanych algorytmów przygotowuje danie. Taki kucharz zawsze będzie odtwórcą, który nigdy nie wyjdzie poza te same smaki. Jeśli kucharz chce być mistrzem, tworzyć potrawy eksplodujące na języku i obezwładniające kubki smakowe, z perspektywą na dość nieoczywiste docenienie przez francuskiego producenta opon – wtedy musi dokładnie poznać swoje składniki. Powinien wiedzieć, jak pachną i smakują konkretne przyprawy, czym różnią się mąki i miody, co można czym zastąpić, co będzie współgrać, a co się wyklucza.
Po tym, może niezbyt oczywistym wstępie, co domyślniejsi zapewne już wiedzą, jaka będzie puenta tej opowieści. Z analitykami jest dokładnie tak samo jak z kucharzami. Mogą przeprowadzać uproszczone analizy bez zagłębiania się w charakterystykę danych, ale wtedy będą działać jak rozbudowany algorytm. Mogą też wyjść od podstawowej cechy każdego dobrego analityka i po prostu znać swoje dane. W ten sposób można się pokusić o stworzenie analizy dogłębnej, szytej na miarę i z budzącymi zaufanie wnioskami. Tylko co zrobić, by szybko poznać swoje dane?
W tym momencie na scenę wkracza Power Query – doskonałe narzędzie do agregacji i przekształcania danych, które oferuje niezwykle intuicyjną opcję prześwietlania danych w tabeli.
Kolory na pierwszej linii
Zacznijmy od czegoś, z czego wiele osób nie zdaje sobie sprawy. Już w momencie wczytania danych Power Query mówi nam, z jakimi danymi mamy do czynienia w każdej z kolumn. Nagłówek tabeli jest oddzielony od jej zawartości pogrubioną, kolorową linią. Linia ta, dla każdej z kolumn, pokazuje, z jakimi danymi i w jakiej proporcji mamy do czynienia. Kolor zielony odpowiada danym poprawnym. Pomarańczowy to błędy. Z kolei ciemny brąz oznacza puste wiersze. Możliwy jest także wzór w paskowaną zieleń, który odnosi się do sytuacji nie do końca jasnej, np. w przypadku kolumny z obliczeniami. Zwróćmy uwagę, że dla jednej kolumny możliwe jest istnienie różnych typów danych, co znajduje odwzorowanie w zabarwieniu jedynie części linii oddzielającej (Rysunek 1).
Jeśli najedziemy kursorem nad taki pasek, wyświetli się okno z nieco bardziej szczegółową informacją na temat danych w kolumnie. Dla każdej z grup danych (czyli prawidłowe, z błędem i puste) podane zostaną liczba wierszy oraz ich procentowy udział w całości. Jeśli kolumna zawiera błędy lub puste wiersze, u dołu okna pojawia się opcja filtrowania, usuwająca ten typ danych. W prawym, dolnym rogu tego okna, pod ikoną wielokropka, dostępne jest nieco bardziej rozbudowane menu. Polecenie Kopiuj ładuje do schowka tabelę z ilościami i procentami poszczególnych danych. Polecenia Zachowaj duplikaty i Zachowaj błędy działają jak filtry, usuwając to, co jest – odpowiednio – wartością unikatową w kolumnie lub wartością poprawną. Następne trzy polecenia to również filtr, ale tym razem usuwający kolejno duplikaty, puste wartości i błędne wartości. Ostatnie polecenie pozwala na zamianę błędów w dowolną wartość słowną lub liczbową.
Już tego typu uproszczone dane, znajdujące się u góry każdej z tabel, pozwalają na rozeznanie się w typie danych, jakie mamy do dyspozycji w tabeli, ale – oczywiście – to dopiero początek.
Wykorzystałeś swój limit bezpłatnych treści
Pozostałe 66% artykułu dostępne jest dla zalogowanych użytkowników portalu. Zaloguj się, wybierz plan abonamentowy albo kup dostęp do artykułu/dokumentu.