Inżynieria danych w praktyce. Kluczowe koncepcje i najlepsze technologie

Lista Ofert

Opis

Ze względu na gwałtowny rozwój inżynierii danych, jaki nastąpił w ciągu ostatniej dekady, wielu inżynierów oprogramowania, badaczy i analityków danych zaczęło odczuwać potrzebę kompleksowego spojrzenia na tę praktykę. Dzięki tej praktycznej książce zawierającej opis najlepszych technologii dostępnych w ramach frameworka cyklu życia inżynierii danych, dowiesz się, jak planować i budować systemy, które mają zaspokoić potrzeby Twojej organizacji i klientów. Autorzy, Joe Reis i Matt Housley, przeprowadzą Cię przez cykl życia inżynierii danych i pokażą, jak połączyć różne technologie chmurowe, aby spełnić potrzeby konsumentów danych w dolnej części strumienia przetwarzania. Dzięki lekturze tej książki dowiesz się, jak zastosować koncepcje generowania, pozyskiwania, orkiestracji, przekształcania, przechowywania i zarządzania danymi - kluczowe w każdym środowisku danych, niezależnie od wykorzystywanej technologii. Dzięki książce: Uzyskasz zwięzły przegląd całego środowiska inżynierii danych. Nauczysz się oceniać problemy inżynierii danych i stosować kompleksowe frameworki najlepszych praktyk. Dowiesz się jak przebić się przez szum marketingowy i wybrać odpowiednie technologie, architekturę danych i procesy? Nauczysz się wykorzystywać cykl życia inżynierii danych do zaprojektowania i zbudowania solidnej architektury. Poznasz mechanizmy zarządzania danymi i bezpieczeństwa w całym cyklu życia inżynierii danych. "Świat danych ewoluuje już od jakiegoś czasu. Najpierw byli projektanci. Następnie administratorzy baz danych. Potem CIO. Następnie architekci danych. Ta książka sygnalizuje kolejny krok w ewolucji i dojrzałości branży. Jest to lektura obowiązkowa dla każdego, kto uczciwie podchodzi do swojego zawodu i kariery". Bill Inmon, twórca hurtowni danych "Inżynieria danych w praktyce" to świetne wprowadzenie do branży przenoszenia, przetwarzania i obsługi danych. Gorąco polecam ją każdemu, kto chce być na bieżąco z inżynierią danych lub analizą oraz wszystkim osobom zajmującym się danymi, którzy chcą uzupełnić luki w swojej wiedzy". Jordan Tigani, założyciel i dyrektor generalny firmy MotherDuck oraz inżynier-założyciel i współtwórca firmy BigQuery Spis treści: Przedmowa Część I. Podstawy i bloki budulcowe1. Czym jest inżynieria danych? Czym jest inżynieria danych? Definicja inżynierii danych Cykl życia inżynierii danych Ewolucja inżyniera danych Inżynieria danych a nauka o danych Umiejętności w zakresie inżynierii danych i wykonywane działania Znaczenie dojrzałości danych dla inżyniera danych Umiejętności inżyniera danych Obowiązki biznesowe Obowiązki techniczne Kontinuum ról inżynierii danych od A do B Inżynierowie danych wewnątrz organizacji Inżynierowie danych wewnętrznych systemów firmy a inżynierowie danych systemów zewnętrznych Inżynierowie danych a inne role techniczne Inżynierowie danych a kierownictwo biznesowe Podsumowanie Zasoby dodatkowe 2. Cykl życia inżynierii danych Czym jest cykl życia inżynierii danych? Cykl życia danych a cykl życia inżynierii danych Generowanie - systemy źródłowe Przechowywanie Pozyskiwanie Przekształcanie Serwowanie danych Główne nurty w cyklu życia inżynierii danych Bezpieczeństwo Zarządzanie danymi DataOps Architektura danych Orkiestracja Inżynieria oprogramowania Podsumowanie Zasoby dodatkowe 3. Projektowanie dobrej architektury danych Czym jest architektura danych? Definicja architektury korporacyjnej Definicja architektury danych "Dobra" architektura danych Zasady dobrej architektury danych Zasada 1. Mądrze dobieraj wspólne komponenty Zasada 2. Przygotuj się na awarie Zasada 3. Tworzenie architektury z myślą o skalowalności Zasada 4. Architektura to przywództwo Zasada 5. Pracuj nad architekturą ciągle Zasada 6. Buduj luźno powiązane systemy Zasada 7. Podejmuj odwracalne decyzje Zasada 8. Traktuj bezpieczeństwo priorytetowo Zasada 9. Korzystaj z FinOps Główne pojęcia dotyczące architektury danych Dziedziny i usługi Systemy rozproszone, skalowalność i projektowanie z uwzględnieniem awarii Sprzężenia ścisłe a sprzężenia luźne: warstwy, monolity i mikrousługi Dostęp użytkowników - pojedynczy użytkownik a wielodostęp Architektura sterowana zdarzeniami Projekty typu brownfield kontra projekty typu greenfield Przykłady i typy architektury danych Hurtownia danych Jeziora danych Konwergencja, jeziora danych nowej generacji i platforma danych Nowoczesny stos danych Architektura Lambda Architektura Kappa Model przepływu danych oraz ujednolicone przetwarzanie wsadowe i strumieniowe Architektura dla IoT Siatka danych Przykłady innych architektur danych Kto jest zaangażowany w projektowanie architektury danych? Podsumowanie Zasoby dodatkowe 4. Wybór technologii w całym cyklu życia inżynierii danych Wielkość i możliwości zespołu Szybkość wprowadzania produktów na rynek Interoperacyjność Optymalizacja kosztów i wartości biznesowej Całkowity koszt posiadania Całkowity koszt alternatywny posiadania FinOps Teraźniejszość kontra przyszłość - technologie niezmienne kontra przejściowe Nasza rada Lokalizacja Lokalnie Chmura Chmura hybrydowa Rozwiązania wielochmurowe Decentralizacja. Blockchain i przetwarzanie brzegowe Nasza rada Argumenty za "repatriacją" z chmury Budowanie zamiast kupowania Oprogramowanie open source Własne ogrody otoczone murem Nasza rada Monolit czy rozwiązanie modułowe Monolit Architektura modułowa Wzorzec rozproszonego monolitu Nasza rada Rozwiązania bezserwerowe kontra rozwiązania oparte na serwerach Rozwiązania bezserwerowe Kontenery Jak ocenić rozwiązanie serwerowe w porównaniu z bezserwerowym? Nasza rada Optymalizacja, wydajność i wojny testów porównawczych Big data. na lata dziewięćdziesiąte Bezsensowne porównania kosztów Asymetryczna optymalizacja Niech kupujący się strzeże Nurty cyklu życia inżynierii danych i ich wpływ na wybór technologii Zarządzanie danymi DataOps Architektura danych Przykład orkiestracji - Airflow Inżynieria oprogramowania Podsumowanie Zasoby dodatkowe Część II. Cykl życia inżynierii danych w szczegółach5. Generowanie danych w systemach źródłowych Źródła danych - jak tworzone są dane? Systemy źródłowe. Najważniejsze pojęcia Pliki i dane bez struktury Interfejsy API Bazy danych aplikacji (systemy OLTP) Systemy przetwarzania analitycznego online (OLAP) Przechwytywanie zdarzeń zmiany danych Logi Logi bazy danych CRUD Tylko wstawianie Komunikaty i strumienie Rodzaje czasu Praktyczne szczegóły dotyczące systemów źródłowych Bazy danych Interfejsy API Współdzielenie danych Zewnętrzne źródła danych Kolejki komunikatów i platformy strumieniowego przesyłania zdarzeń Z kim będziesz pracować? Nurty inżynierii danych i ich wpływ na systemy źródłowe Bezpieczeństwo Zarządzanie danymi DataOps Architektura danych Orkiestracja Inżynieria oprogramowania Podsumowanie Zasoby dodatkowe 6. Składowanie Podstawowe elementy systemów składowania danych Dyski magnetyczne Dyski SSD Pamięć operacyjna Infrastruktura sieci i procesor Serializacja Kompresja Buforowanie Systemy składowania danych Składowanie na pojedynczym serwerze a składowanie rozproszone Spójność ostateczna kontra spójność silna Składowanie w plikach Blokowe systemy składowania Magazyn obiektów Systemy składowania oparte na pamięci podręcznej i pamięci operacyjnej Rozproszony system plików Hadoop Składowanie strumieniowe Indeksy, partycjonowanie i klastrowanie Abstrakcje składowania w inżynierii danych Hurtownia danych Jeziora danych Data lakehouse Platformy danych Architektura pamięci masowej stream-to-batch Wielkie pomysły i trendy dotyczące składowania Katalog danych Współdzielenie danych Schemat Oddzielenie przetwarzania od składowania Cykl życia systemów składowania i utrzymywanie danych Magazyny dla jednego i wielu dzierżawców Z kim będziesz pracować? Główne nurty Bezpieczeństwo Zarządzanie danymi DataOps Architektura danych Orkiestracja Inżynieria oprogramowania Podsumowanie Zasoby dodatkowe 7. Pozyskiwanie danych Czym jest pozyskiwanie danych? Kluczowe zagadnienia inżynieryjne dotyczące fazy pozyskiwania danych Dane związane kontra dane niezwiązane Częstość Pozyskiwanie synchroniczne a asynchroniczne Serializacja i deserializacja Przepustowość i skalowalność Niezawodność i trwałość Ładunek danych Wzorce pozyskiwania pull, push czy odpytywanie? Zagadnienia dotyczące pozyskiwania danych partiami Ekstrakcja migawkowa lub różnicowa Eksportowanie i pozyskiwanie oparte na plikach Systemy ETL kontra ELT Wstawianie, aktualizacje i rozmiar partii Migracje danych Zagadnienia dotyczące pozyskiwania komunikatów i pozyskiwania strumieniowego Ewolucje schematu Spóźnione dane Kolejność zdarzeń i wielokrotne dostarczanie Ponowne odtwarzanie Czas życia Rozmiar wiadomości Obsługa błędów i kolejki utraconych wiadomości Konsumenci typu pull kontra konsumenci typu push Lokalizacja Sposoby pozyskiwania danych Bezpośrednie połączenie z bazą danych Przechwytywanie zdarzeń zmian danych Interfejsy API Kolejki komunikatów i platformy strumieniowego przesyłania zdarzeń Zarządzane łączniki danych Przenoszenie danych za pomocą obiektowego magazynu danych EDI Bazy danych i eksportowanie plików Problemy z popularnymi formatami plików Powłoka SSH SFTP i SCP Webhooki Interfejs webowy Web scraping Urządzenia do przesyłania danych wykorzystywane do migracji Współdzielenie danych Z kim będziesz pracować? Interesariusze w górnej części strumienia przetwarzania Interesariusze z dolnej części strumienia przetwarzania Główne nurty Bezpieczeństwo Zarządzanie danymi DataOps Orkiestracja Inżynieria oprogramowania Podsumowanie Zasoby dodatkowe 8. Zapytania, modelowanie i przekształcenia Zapytania Czym jest zapytanie? Cykl życia zapytania Optymalizator zapytań Poprawa wydajności zapytań Zapytania do danych przekazywanych strumieniowo Modelowanie danych Co to jest model danych? Pojęciowe, logiczne i fizyczne modele danych Normalizacja Techniki modelowania danych analitycznych pozyskiwanych partiami Modelowanie danych pozyskiwanych strumieniowo Przekształcenia Przekształcenia wsadowe Widoki zmaterializowane, federacja i wirtualizacja zapytań Przekształcanie i przetwarzanie danych przekazywanych strumieniowo Z kim będziesz pracować? Interesariusze w górnej części strumienia przetwarzania Interesariusze z dolnej części strumienia przetwarzania Główne nurty Bezpieczeństwo Zarządzanie danymi DataOps Architektura danych Orkiestracja Inżynieria oprogramowania Podsumowanie Zasoby dodatkowe 9. Serwowanie danych na potrzeby analizy, uczenia maszynowego i odwróconych procesów ETL Ogólne uwagi dotyczące serwowania danych Zaufanie Jaki jest przypadek użycia i kto jest użytkownikiem? Produkty danych Produkt samoobsługowy czy nie? Definicje danych i logika Siatki danych Analityka Analityka biznesowa Analityka operacyjna Analityka wbudowana Uczenie maszynowe Co inżynier danych powinien wiedzieć o ML? Sposoby serwowania danych na potrzeby analityki i uczenia maszynowego Wymiana za pomocą plików Bazy danych Systemy strumieniowe Zapytania federacyjne Współdzielenie danych Warstwy semantyki i metryk Serwowanie danych w notatnikach Odwrócony ETL Z kim będziesz pracować? Główne nurty Bezpieczeństwo Zarządzanie danymi DataOps Architektura danych Orkiestracja Inżynieria oprogramowania Podsumowanie Zasoby dodatkowe Część III. Bezpieczeństwo, prywatność i przyszłość inżynierii danych10. Bezpieczeństwo i prywatność Ludzie Moc negatywnego myślenia Zawsze bądź paranoikiem Procesy Teatr bezpieczeństwa kontra nawyki bezpieczeństwa Aktywne zabezpieczenia Zasada najmniejszych uprawnień Wspólna odpowiedzialność w chmurze Zawsze twórz kopie zapasowe danych Przykładowa polityka bezpieczeństwa Technologia Wdrażanie poprawek i aktualizacji Szyfrowanie Logowanie, monitorowanie i ostrzeganie Dostęp do sieci Bezpieczeństwo niskopoziomowej inżynierii danych Podsumowanie Zasoby dodatkowe 11. Przyszłość inżynierii danych Cykl życia inżynierii danych nie zniknie Zmniejszenie złożoności i rozwój łatwych w użyciu narzędzi danych System operacyjny danych w skali chmury i lepsza interoperacyjność Korporacyjna inżynieria danych Tytuły zawodowe i zakresy obowiązków będą się zmieniać. Ewolucja nowoczesnego stosu danych w kierunku stosu danych na żywo Stos danych na żywo Potoki strumieniowe i analityczne bazy danych czasu rzeczywistego Fuzja danych z aplikacjami Ścisłe sprzężenie zwrotne między aplikacjami a uczeniem maszynowym Dane ciemnej materii i rozwój. arkuszy kalkulacyjnych?! Podsumowanie A. Serializacja i kompresja. Szczegóły techniczneB. Sieć w chmurze Skorowidz

Rozwiń Zwiń

Specyfikacja

Podstawowe informacje

Autor	Joe Reis, Matt Housley
Rok wydania	2023

Techniczne

Format	PDF MOBI EPUB
Ilość stron	432

Dodatkowe informacje

Kategorie	Bazy danych
Wydawnictwo	Helion