Potoki danych. Leksykon kieszonkowy

Lista Ofert

Opis

Poprawnie zaprojektowane i wdrożone potoki danych mają kluczowe znaczenie dla pomyślnej analizy danych, a także w trakcie uczenia maszynowego. Pozyskanie ogromnych ilości danych z różnych źródeł najczęściej nie stanowi problemu. Nieco trudniejsze jest zaprojektowanie procesu ich przetwarzania w celu dostarczenia kontekstu w taki sposób, aby efektywnie korzystać z posiadanych danych w codziennej pracy organizacji i podejmować dzięki nim rozsądne decyzje. Oto zwięzły przewodnik przeznaczony dla inżynierów danych, którzy chcą poznać zasady implementacji potoków danych. Wyjaśnia najważniejsze pojęcia związane z potokami danych, opisuje zasady ich tworzenia i implementacji, prezentuje także najlepsze praktyki stosowane przez liderów w branży analizy danych. Dzięki książce zrozumiesz, w jaki sposób potoki danych działają na nowoczesnym stosie danych, poznasz też typowe zagadnienia, które trzeba przemyśleć przed podjęciem decyzji dotyczących implementacji. Dowiesz się, jakie są zalety samodzielnego opracowania rozwiązania, a jakie - zakupu gotowego produktu. Poznasz również podstawowe koncepcje, które mają zastosowanie dla frameworków typu open source, produktów komercyjnych i samodzielnie opracowywanych rozwiązań. Dowiedz się: czym jest potok danych i na czym polega jego działanie jak się odbywa przenoszenie i przetwarzanie danych w nowoczesnej infrastrukturze jakie narzędzia są szczególnie przydatne do tworzenia potoków danych jak używać potoków danych do analizy i tworzenia raportów jakie są najważniejsze aspekty obsługi potoków, ich testowania i rozwiązywania problemów Poznaj najlepsze praktyki projektowania i implementacji potoków danych! Spis treści: Spis treściWprowadzenieRozdział 1. Wprowadzenie do potoków danych Czym jest potok danych? Kto tworzy potok danych? Podstawy pracy z SQL i hurtowniami danych Python i/lub Java Przetwarzanie rozproszone Podstawowa administracja systemem Nastawienie bazujące na celach Dlaczego w ogóle są tworzone potoki danych? Jak jest tworzony potok danych? Rozdział 2. Nowoczesna infrastruktura danych Różnorodność źródeł danych Własność źródła danych Interfejs pobierania danych i ich struktura Wolumen danych Czystość danych i ich weryfikacja Opóźnienie i przepustowość systemu źródłowego Jezioro danych i hurtownia danych w chmurze Narzędzia pobierania danych Przekształcanie danych i narzędzia modelowania Platformy narzędzi koordynacji sposobu pracy Skierowany graf acykliczny Dostosowanie infrastruktury danych do własnych potrzeb Rozdział 3. Najczęściej spotykane wzorce potoków danych ETL i ELT Pojawienie się ELT po ETL Podwzorzec EtLT ELT w analizie danych ELT dla naukowca ELT dla produktów danych i uczenia maszynowego Etapy potoku danych dla uczenia maszynowego Wykorzystanie informacji zwrotnych w potoku Więcej zasobów dotyczących potoków danych dla uczenia maszynowego Rozdział 4. Pobieranie danych - wyodrębnianie Przygotowanie środowiska Pythona Przygotowanie plikowego magazynu danych w chmurze Wyodrębnianie danych z bazy danych MySQL Pełne i przyrostowe wyodrębnianie danych z tabeli MySQL Binarny dziennik zdarzeń replikacji danych MySQLWyodrębnianie danych z bazy danych PostgreSQL Pełne i przyrostowe wyodrębnianie danych z tabeli PostgreSQL Replikacja danych za pomocą dziennika zdarzeń WAL Wyodrębnianie danych z API REST Wyodrębnianie danych z bazy danych MongoDB Strumieniowane pobieranie danych za pomocą Kafki i Debezium Rozdział 5. Pobieranie danych - wczytywanie Konfiguracja hurtowni danych Amazon Redshift jako miejsca docelowego Wczytywanie danych do hurtowni danych Redshift Wczytywanie przyrostowe a pełne Wczytywanie danych wyodrębnionych z dziennika zdarzeń CDC Konfiguracja hurtowni danych Snowflake jako miejsca docelowego Wczytywanie danych do hurtowni danych Snowflake Używanie plikowego magazynu danych jako jeziora danych Frameworki typu open source Alternatywy komercyjne Rozdział 6. Przekształcanie danych Przekształcenia pozbawione kontekstu Usunięcie powtarzających się rekordów w tabeli Przetwarzanie adresów URL Kiedy powinno odbywać się przekształcanie - podczas pobierania danych czy już po? Podstawy modelowania danych Najważniejsze pojęcia związane z modelowaniem danych Modelowanie w pełni odświeżonych danych Powolna zmiana wymiarów w celu pełnego odświeżenia danych Modelowanie przyrostowo pobieranych danych Modelowanie danych, które są tylko dołączane Modelowanie zmiany przechwytywanych danych Rozdział 7. Narzędzia instrumentacji potoków danych Skierowany graf acykliczny Konfiguracja Apache Airflow i ogólne omówienie tego frameworka Instalacja i konfiguracja Baza danych Apache Airflow Serwer WWW i interfejs użytkownika Harmonogram Wykonawca Operatory Tworzenie skierowanego grafu acyklicznego za pomocą Apache Airflow Prosty skierowany graf acykliczny Skierowany graf acykliczny potoku danych ELT Dodatkowe zadania potoku danych Komunikaty i powiadomienia Weryfikacja danych Zaawansowane konfiguracje koordynacji Połączone a niepołączone zadania potoku danych Kiedy podzielić skierowany graf acykliczny? Koordynacja wielu grafów za pomocą operatora Sensor Zarządzane opcje Apache Airflow Inne frameworki koordynacji Rozdział 8. Weryfikacja danych w potoku Weryfikuj wcześnie i często Jakość danych w systemie źródłowym Niebezpieczeństwa związane z pobieraniem danych Umożliwienie analitykowi weryfikacji danych Prosty framework weryfikacji Kod frameworka weryfikacji Struktura testu weryfikacyjnego Wykonywanie testu weryfikacyjnego Używanie frameworka w skierowanym grafie acyklicznym Apache Airflow Kiedy zatrzymać wykonywanie potoku, a kiedy tylko wygenerować ostrzeżenie i kontynuować potok? Rozbudowa frameworka Przykłady testów weryfikacyjnych Powielone rekordy po operacji pobierania danych Nieoczekiwana zmiana liczby rekordów po operacji pobierania danych Fluktuacje wartości wskaźników Komercyjne i niekomercyjne frameworki do weryfikacji danych Rozdział 9. Najlepsze praktyki podczas pracy z potokiem danych Obsługa zmian w systemach źródłowych Wprowadzenie abstrakcji Obsługa kontraktów danych Ograniczenia schematu podczas odczytu Skalowanie złożoności Standaryzacja pobierania danych Wielokrotne używanie logiki modelu danych Zapewnienie spójności zależności Rozdział 10. Pomiar i monitorowanie wydajności działania potoku danych Kluczowe wskaźniki potoku Przygotowanie hurtowni danych Schemat infrastruktury danych Rejestrowanie danych i sprawdzanie wydajności działania operacji pobierania danych Pobieranie z Apache Airflow historii wykonania poszczególnych skierowanych grafów acyklicznych Dodawanie funkcjonalności rejestrowania danych do frameworka weryfikacji danych Przekształcanie danych dotyczących wydajności działania Wskaźnik sukcesu skierowanego grafu acyklicznego Zmiana czasu wykonywania skierowanego grafu acyklicznego na przestrzeni czasu Liczba testów weryfikacyjnych i współczynnik sukcesu Koordynacja wydajności działania potoku Skierowany graf acykliczny dotyczący wydajności działania Przejrzystość wydajności działania Skorowidz O autorze: James Densmore jest dyrektorem do spraw infrastruktury danych na potrzeby analityki biznesowej w HubSpot, a także założycielem i głównym konsultantem w Data Liftoff. Od ponad dziesięciu lat kieruje zespołami inżynierów danych i zajmuje się projektowaniem infrastruktury danych.

Rozwiń Zwiń

Specyfikacja

Podstawowe informacje

Autor	James Densmore
Wybrane wydawnictwa	Helion
Okładka	Broszura
Rok wydania	2023
Ilość stron	256
Tematyka	Bazy danych
ISBN	9788383223384

Potoki danych. Leksykon kieszonkowy Poznań

Lista Ofert

Opis

Specyfikacja

Podstawowe informacje

Zobacz także