KNIME Analytics Platform – przygotowanie danych do analizy
W poprzednim numerze IZ poznaliśmy sposoby wczytywania danych do KNIME. Możliwości jest sporo, ale proces eksploracji danych można rozpocząć nawet od przeciągnięcia dowolnej liczby plików z danymi (np. xlsx, csv) do przestrzeni workflow i dostosowania opcji odczytu w konfiguracji węzła. Zwykle na tym etapie mamy do czynienia z danymi z różnych źródeł o niezależnej strukturze, z brakującymi lub błędnymi wartościami.
Modelowanie procesu data mining na niesprawdzonych danych (ang. raw data) nie jest najlepszym pomysłem, tym bardziej jeśli wyniki analizy mogą mieć realny wpływ na decyzje biznesowe w organizacji.
Poza tym już Arystoteles wspominał, że mały błąd na początku staje się wielkim na końcu. Co więcej, prawie zawsze będziemy potrzebowali w jakiś sposób oczyszczać, przekształcać, grupować, agregować i kategoryzować dane. W końcu w systemach informatycznych gromadzone są ogromne ilości danych, więc precyzyjne analizy muszą być poprzedzone procesem czyszczenia i wstępnego przetwarzania danych (ang. cleaning and preprocessing data).
W niniejszej, trzeciej części cyklu na temat analiz data mining w KNIME przedstawimy najczęściej używane węzły do wykonywania przekształceń. W pierwszej kolejności skupimy się na kolumnach. Wszystkie węzły z tej kategorii dostępne są w widoku repozytorium w grupie „Manipulation” i podgrupie „Column”.
Wykorzystałeś swój limit bezpłatnych treści
Pozostałe 78% artykułu dostępne jest dla zalogowanych użytkowników portalu. Zaloguj się, wybierz plan abonamentowy albo kup dostęp do artykułu/dokumentu.