Pobieranie i przekształcanie pliku PDF za pomocą Power Query
Pracując z danymi, musimy się mierzyć z wieloma różnymi wyzwaniami. Jednym z najbardziej prozaicznych problemów jest próba wyciągnięcia z pliku PDF danych, których potrzebujemy. Oczywiście mowa o wyciągnięciu danych w inny sposób niż manualnie czy metodą robienia zrzutów ekranu. Jak można to zrobić inaczej? Odpowiedź jest prosta – z pomocą Power Query. Przyjrzyjmy się na przykładzie, jak tego dokonać, jednocześnie ułatwiając sobie pracę.
Przekształcanie pliku PDF w Power Query – kiedy warto?
Podstawowa kwestia: kiedy warto rozważyć Power Query w kontekście przekształcania pliku PDF? Przede wszystkim wtedy, gdy potrzebujemy wyciągnąć z pliku PDF konkretną zawartość, np. tabelę, a na danych z tej tabeli chcemy dalej robić analizę lub linkować formuły do tychże danych. Jeśli potrzebujemy jedynie 2–3 liczby lub tabelę wyłącznie do celów prezentacji, to nie ma sensu utrudniać sobie życia i tworzyć zapytania PQ. Power Query jest tutaj najprostszym rozwiązaniem i w tym konkretnym przypadku Excel nam nie pomoże. Często jest tak, że można coś zrobić zarówno za pomocą Excela, jak i PQ. Różnica polega jedynie na stopniu trudności. Jednak nie tym razem.
Przekształcanie pliku PDF w Power Query – zestaw danych
Sam wykorzystałem Power Query wielokrotnie do obróbki pliku PDF z banku i zaimportowania tabeli z symulacją spłaty kredytu. Natomiast na potrzeby prezentacyjne spróbujemy zaimportować plik PDF ze skonsolidowanym sprawozdaniem finansowym pobrany ze strony CCC.eu. Do dalszych analiz potrzebujemy rachunek zysków i strat zawarty na drugiej stronie (na 86) PDF z podziałem na marki (CCC, Halfprice etc). Zestaw danych przed pobraniem i przekształceniem prezentuje Tabela 1.
Przekształcanie pliku PDF w Power Query – krok po kroku
By osiągnąć nasz cel, otwieramy nowy arkusz Excel i postępujemy zgodnie z poniższymi krokami:
- Data -> Get Data -> From File -> From PDF (Rysunek 1).
- Wybieramy plik, który zamierzamy zaimportować (plik w tym przypadku nazywa się 1q-24-CCC). Klikamy „Import”.
- Nasz plik ma 86 stron, więc jest to całkiem spory rozmiar i Power Query może potrzebować chwili, by wyświetlić okienko Nawigatora. Jak widzimy na Rysunku 2, po lewej stronie znajduje się spis stron, a po prawej podgląd. Bardzo ważne jest, żeby w tym momencie nie przekształcać całego zestawu danych (stałoby się tak, gdybyśmy wybrali folder 1q-24-ccc i kliknęli „transform data”). W ten sposób niepotrzebnie dodalibyśmy sobie pracy. W naszym przypadku w zupełności wystarczy kliknięcie w nazwę „Table001 (Page 2)”, a następnie „Transform data”. Uwaga. Wybierając Load, załadowaliśmy do zakładki Excela dane widoczne na podglądzie. Nam jednak zależy na delikatnej obróbce i danych wyłącznie w polskiej walucie.
Dostęp do bezpłatnego artykułu
Możliwy jest po pozostawieniu adres e-mail wraz ze zgodą reklamową.