Węzły, porty i przepływy, czyli ruszamy z KNIME na szerokie wody
Po prezentacji w poprzednim numerze znakomitego narzędzia, jakim jest KNIME, pora zagłębić się w tajniki jego codziennego używania. Dla kogoś, kto do tej pory pracował tylko z Excelem albo pisał zapytania w SQL, pierwsze zderzenie z tą aplikacją może być nieco utrudnione. Od czego zacząć? Z menu File wybieramy New, następnie New KNIME Workflow, nadajemy mu nazwę i… Co dalej? Wystarczy powrócić do czasów dzieciństwa i przypomnieć sobie jedną z najlepszych zabawek świata – klocki Lego.
Co jest najważniejsze w budowaniu z Lego, poza tym, żeby na żaden z nich nieopatrznie nie nadepnąć bosą stopą? Trzeba mieć instrukcję i klocki. Bez tego ani rusz. A co w przypadku, gdy chcemy budować coś bez instrukcji, bazując jedynie na własnej wyobraźni? Musimy wiedzieć, co chcemy zbudować, jak to ma wyglądać, jakie mamy klocki do dyspozycji i jak można je ze sobą połączyć. Praca z KNIME to właśnie ten drugi przypadek. Ale bez ryzyka nadepnięcia na kawałek plastiku.
Poznajmy klocki
Zanim zaczniemy tworzyć nasze budowle (czyli workflow), poznajmy klocki, z którymi przyszło nam pracować. W tej roli występują nasi znajomi z poprzedniego artykułu, czyli węzły. To z nich przyjdzie nam składać ścieżki, po których będą płynąć dane, przetwarzane na poszczególnych etapach. Aby dodać węzeł do obszaru roboczego, sięgnijmy do okna Node Repository. Znajdziemy tu wszystkie węzły pogrupowane w wygodnym drzewku według kategorii. Przyjrzyjmy się im pokrótce.
Jakie klocki do zabawy?
Kategoria IO grupuje węzły zarządzające danymi na wejściu i wyjściu. Możemy tu znaleźć moduły odczytujące pliki oraz zapisujące przetworzone dane w wybranym formacie. Są tu też węzły wspierające zarządzanie plikami (kopiowanie, pakowanie, wysyłanie mailem). Węzły typu Manipulation pozwalają na przekształcenia w ramach tabeli z danymi. Sięgamy tu, aby usuwać i dodawać kolumny lub wiersze, łączyć, dzielić i transponować tabele. Są tu też węzły umożliwiające wykonanie tych czynności w modelu PMML. W folderze Views znajdziemy przede wszystkim węzły, które pozwalają na wygenerowanie różnorakich wykresów. Analytics to wszystkie węzły, które stanowić będą serce modelu analitycznego, zarówno statystyczne, jak i wspierające data mining. Database z kolei pozwalają na podłączenie się z wybraną bazą danych, same polecenia zaś są podobne do tych zawartych w Manipulation. W Other Data Types umieszczono węzły służące do pracy z danymi czasowymi. Dzięki klockom z kategorii Structured Data możliwe jest przetwarzanie danych z plików XML czy JSON. Węzły typu Scripting umożliwiają stosowanie w workflow skryptów języka Java. W Tools & Services mamy narzędzia pozwalające na pobieranie danych z serwisów sieciowych zgodnie z praktykami REST. Workflow Control daje możliwość tworzenia pętli w workflow albo stosowania w nich zmiennych. Do ostatniej kategorii Reporting należą dwa węzły, które pozwalają na przenoszenie przekształconych danych do modułu raportowego KNIME.
Powyższe kategorie zawierają tylko podstawowe zbiory węzłów, widoczne po zainstalowaniu KNIME bez jakichkolwiek rozszerzeń. Jeśli chcemy, możemy z menu głównego wybrać polecenie File -> Install KNIME Extensions… i korzystać z węzłów stworzonych do pracy z Big Data, danymi chemicznymi lub biologicznymi, albo danymi z sieci społecznościowych (Rysunek 1). Wystarczy wybrać właściwe rozszerzenie i zaakceptować jego licencję.
Wykorzystałeś swój limit bezpłatnych treści
Pozostałe 73% artykułu dostępne jest dla zalogowanych użytkowników portalu. Zaloguj się, wybierz plan abonamentowy albo kup dostęp do artykułu/dokumentu.