Ekstrakcja danych w Pythonie. Teoria i praktyka - Piotr Rybka [KSIĄŻKA] Kraków

Dane: załaduj, przetwarzaj, analizuj Ekstrakcja danych jest procesem, w którym informacje pozyskuje się z różnych źródeł - zwykle po to, by następnie poddać je dalszej transformacji i analizie. Umiejętność pozyskiwania danych, scalania, filtrowania i obrabiania ich na rozmaite sposoby przydaje się …

od 64,57 Najbliżej: 4,2 km

Liczba ofert: 1

Oferta sklepu

Opis

Dane: załaduj, przetwarzaj, analizuj Ekstrakcja danych jest procesem, w którym informacje pozyskuje się z różnych źródeł - zwykle po to, by następnie poddać je dalszej transformacji i analizie. Umiejętność pozyskiwania danych, scalania, filtrowania i obrabiania ich na rozmaite sposoby przydaje się nie tylko zawodowym analitykom. Zdolność poruszania się po świecie danych jest wysoce pożądana również u osób pracujących w działach IT i na stanowiskach menadżerskich. Kto ma dane, ten ma wiedzę i zyskuje przewagę nad konkurencją! Jeśli chcesz zgłębić teorię ekstrakcji danych i zdobyć praktyczne umiejętności pozwalające operować nimi w Pythonie, ten podręcznik powinien być dla Ciebie pozycją obowiązkową. Dzięki książce między innymi: Opanujesz podstawowe pojęcia, których znajomość jest niezbędna podczas działań na zbiorach danych Zrozumiesz specyfikę plików binarnych i tekstowych Dowiesz się, na czym polega kodowanie tekstu Poznasz zagadnienia wyrażeń regularnych Zorientujesz się, jakie formaty wymiany danych są dostępne w Pythonie Nauczysz się przeszukiwać dokumenty znacznikowe Zapoznasz się ze schematami formatów wymiany danych Spis treści: Od autora CZĘŚĆ I. PODSTAWOWE POJĘCIA Rozdział 1. Co można robić z danymi 1.1. Oczyszczanie 1.2. Normalizacja 1.3. Wzbogacanie 1.4. Agregacja 1.5. Kwerendowanie 1.6. Pozyskiwanie, zbieranie, gromadzenie 1.7. Odzyskiwanie 1.8. Eksploracja 1.9. "Zeskrobywanie" 1.10. Transformacja 1.11. Integracja 1.12. Wydobywanie 1.13. Wydobywanie danych z tekstów 1.14. Parsowanie Rozdział 2. Ekstrakcja danych 2.1. Definicja 2.2. Etapy 2.3. ETL, ELT, migracje Rozdział 3. Rodzaje danych 3.1. Zawartość danych 3.2. Struktura lub format danych 3.3. Użycie lub funkcja danych Rozdział 4. Jednostki danych 4.1. Bit 4.2. Półbajt 4.3. Bajt 4.4. Przedrostki wielokrotności jednostek 4.5. Słowo (maszynowe) 4.6. Jednostki budowy tabeli bazodanowej 4.6.1. Wartości atomowe 4.6.2. Pola 4.6.3. Rekordy 4.6.4. Krotki 4.6.5. Encje 4.6.6. Atrybuty 4.6.7. Schemat danych 4.7. Kubit Rozdział 5. Źródła danych 5.1. Bazy danych 5.2. Hurtownie danych 5.3. Jeziora danych 5.4. Delta Lakes 5.5. Pliki płaskie 5.6. Interfejsy programowania aplikacji webowych 5.7. Arkusze kalkulacyjne 5.8. Źródła "zeskrobywalne" 5.9. Usługi chmurowe 5.10. Urządzenia Internetu Rzeczy CZĘŚĆ II. PLIKI BINARNE I TEKSTOWE Rozdział 6. Charakterystyka plików binarnych i tekstowych Rozdział 7. Przykłady plików binarnych 7.1. Format .wave 7.2. Format .bmp Rozdział 8. Sposoby osadzania danych binarnych w plikach tekstowych 8.1. Problem niekompatybilności danych binarnych i tekstowych 8.2. Kodowanie Base64 8.3. Kodowania Base16 i Base32 Rozdział 9. Pliki binarne i tekstowe w Pythonie 9.1. Listowanie plików 9.2. Strumienie 9.3. Tryby strumieni 9.4. Funkcje strumieniowe 9.5. Odróżnianie plików binarnych i tekstowych 9.6. Ciągi bitów 9.7. Odczyt plików binarnych i tekstowych 9.8. Odczyt metadanych pliku CZĘŚĆ III. KODOWANIE TEKSTU Rozdział 10. Systemy pozycyjne zapisu liczb 10.1. Ogólna postać k-cyfrowej liczby 10.2. Podstawa systemu pozycyjnego 10.3. Rozwinięcie liczby w systemie o podstawie 10 10.4. Ogólne rozwinięcie k-cyfrowej liczby w systemie o podstawie p 10.5. Interpretacja liczb w systemach pozycyjnych 10.6. Rozpoznawanie systemu zapisu 10.7. Systemy pozycyjne o różnych podstawach 10.8. Niepozycyjne systemy zapisu liczb 10.9. Konwersje na system dziesiętny 10.10. Konwersja na system dwójkowy 10.11. Konwersja na system o podstawie p 10.12. System dwójkowy a szesnastkowy 10.13. Konwersja ułamków 10.14. Notacja naukowa Rozdział 11. Systemy notacji w Pythonie Rozdział 12. Strony (tablice) kodowe 12.1. Strona (tablica) kodowa vs kodowanie 12.2. Strona kodowa czy kodowanie 12.3. Strategie tworzenia tablic kodowych 12.4. ASCII 12.5. Tablice kodowe ISO i Windows 12.5.1. Zakres kodów i liczba bajtów wymagana do zakodowania znaku 12.5.2. Zawartość tablic kodowych ISO 12.5.3. Zawartość tablic kodowych Windows 12.5.4. ANSI 12.5.5. Zalety i wady tablic ISO i Windows 12.6. Unicode (Unikod) 12.6.1. Innowacyjność Unikodu 12.6.2. Kompatybilność z wcześniejszymi tablicami kodowymi 12.6.3. Standaryzacja 12.6.4. Budowa Unikodu 12.6.5. Zakres kodów i liczba bajtów wymagana do zakodowania znaku - zamkniętość i otwartość Unikodu 12.6.6. Zawartość Unikodu 12.6.7. Definicja znaku pisarskiego 12.6.8. Stosowane kodowania 12.6.9. Wady Unikodu 12.6.10. Zestawy i wyszukiwarki znaków Unikodu 12.6.11. Ekwiwalencja i normalizacja 12.7. Znaki niedrukowalne, białe i kody sterujące 12.7.1. Znak końca linijki 12.7.2. Kody (znaki) sterujące ASCII 12.7.3. Dodatkowe kody (znaki) sterujące w Unicode 12.7.4. Białe znaki stosowane w edytorach tekstu 12.8. Łączące znaki diakrytyczne 12.9. Semigrafika Rozdział 13. Unicode w Pythonie Rozdział 14. Kodowania 14.1. Strategie tworzenia systemów kodowania 14.2. Kolejność zapisu bajtów - endianness 14.2.1. Przyczyny różnej kolejności zapisu bajtów 14.2.2. Big Endian ("grubokońcówkowość") 14.2.3. Little Endian ("cienkokońcówkowość") 14.3. Kodowanie 8-bitowe 14.4. UTF-32 i UCS-4 14.5. UTF-16 i UCS-2 14.5.1. Ogólny algorytm kodowania w UTF-16 14.5.2. Kodowanie bezpośrednie w UTF-16 14.5.3. Kodowanie rozdzielcze 14.5.4. Przykłady kodowania rozdzielczego 14.5.5. Zalety i wady UTF-16 i UCS-2 14.6. UTF-8 14.6.1. Prefiksy bajtów w słowie maszynowym 14.6.2. Ramki binarne słów maszynowych 14.6.3. Algorytm kodowania w UTF-8 14.6.4. Algorytm dekodowania w UTF-8 14.6.5. Endianness w UTF-8 14.6.6. Zalety i wady UTF-8 14.7. BOM (Bite Order Mark) 14.8. Rozpoznawanie kodowania Rozdział 15. Kodowanie tekstu w Pythonie CZĘŚĆ IV. WYRAŻENIA REGULARNE Rozdział 16. Wstęp 16.1. Definicja wyrażeń regularnych 16.2. Silniki wyrażeń regularnych Rozdział 17. Budowa wyrażeń regularnych 17.1. Metaznaki i literały 17.2. Kropka Rozdział 18. Zbiory, zakresy i klasy znaków 18.1. Zbiory i zakresy 18.2. Klasy znaków 18.3. Klasy znaków POSIX Rozdział 19. Kwantyfikatory Rozdział 20. Grupy 20.1. Grupowanie, przechwytywanie, odwołania 20.2. Alternatywa 20.3. Odwołania bezwzględne i względne 20.4. Napisy puste Rozdział 21. Granice 21.1. Metaznaki i metasekwencje konsumujące i niekonsumujące 21.2. Granice jednostek tekstu Rozdział 22. Znaki Unicode 22.1. Wskazywanie znaku kodem Unicode 22.2. Klasy znaków Unicode Rozdział 23. Podstawianie 23.1. Podstawianie liter i zmiana kasztowości 23.2. Matryca podstawiania Rozdział 24. Asercje, wyrażenia warunkowe, definicje 24.1. Warunki pozytywne i negatywne, retrospektywne i prospektywne 24.2. Wyrażenia warunkowe 24.3. Definicje Rozdział 25. Opcje (modyfikatory, flagi) wyrażeń regularnych 25.1. Ogólne opcje wyrażeń regularnych 25.2. Stosowanie opcji w różnych silnikach 25.3. Składanie opcji 25.4. Komentarze 25.5. Opcje silnika PCRE Rozdział 26. Wyrażenia regularne w Pythonie 26.1. Wyszukiwanie 26.1.1. Funkcja search 26.1.2. Funkcja match 26.1.3. Funkcja fullmatch 26.1.4. Funkcja findall 26.1.5. Funkcja finditer 26.2. Flagi (opcje) 26.3. Obiekt match object 26.3.1. Funkcja match_obj.group 26.3.2. Funkcja match_obj.groups 26.3.3. Funkcja match_obj.groupdict 26.3.4. Funkcje match_obj.start i match_obj.end 26.3.5. Funkcja match_obj.span 26.3.6. Atrybuty match_obj.lastindex i match_obj.lastgroup 26.3.7. Atrybuty pos i endpos, re i string 26.4. Inne funkcje 26.4.1. Funkcje sub i subn 26.4.2. Funkcja split 26.4.3. Funkcje re.escape i match_obj.expand 26.5. Przykłady użycia biblioteki re 26.5.1. Wyszukiwanie przy użyciu funkcji search, match i findall 26.5.2. Wyszukiwanie przy użyciu funkcji finditer 26.6. Podsumowanie CZĘŚĆ V. FORMATY WYMIANY DANYCH Rozdział 27. Wymiana danych 27.1. Wymiana danych i schemat (struktura) danych 27.2. Serializacja i deserializacja danych Rozdział 28. Języki znacznikowe 28.1. Znacznik 28.2. Odmiany języków znacznikowych 28.3. Dane a metadane 28.4. Język a metajęzyk 28.5. Drzewa Rozdział 29. Formaty CSV i TSV 29.1. Budowa schematów CSV i TSV 29.2. Zagnieżdżenia w plikach CSV i TSV 29.3. Wskazywanie typów danych 29.4. Podsumowanie - zalety i wady Rozdział 30. Pliki CSV w Pythonie 30.1. Odczyt plików CSV 30.2. Zapis plików CSV 30.3. Parametry pliku i dialekty Rozdział 31. Format JSON 31.1. Dane, obiekty, tablice 31.2. Typy danych 31.3. Tablice (listy) 31.4. Liczby 31.5. Komentarze 31.6. Podsumowanie - wady i zalety Rozdział 32. Pliki JSON w Pythonie 32.1. Odczyt plików JSON 32.2. Zapis plików JSON Rozdział 33. Format YAML 33.1. Pary klucz-wartość 33.2. Komentarze 33.3. Typy danych 33.4. Listy 33.5. Obiekty 33.6. Znaki (sekwencje) ucieczki 33.7. Znaki Unikodu 33.8. Dodatkowe oznaczenia 33.9. Zapis czasu i dat - standard ISO 8601 33.10. Spacja po przecinku i dwukropku 33.11. Kotwice 33.12. Dyrektywy 33.13. Przykład dokumentu 33.14. Podsumowanie - zalety i wady formatu YAML Rozdział 34. Pliki YAML w Pythonie 34.1. Odczyt plików YAML 34.2. Zapis plików YAML 34.3. Własny parser Rozdział 35. Format XML 35.1. Rozszerzalność XML-a 35.2. Główne składniki dokumentu XML 35.3. Budowa elementu 35.4. Element czy atrybut? 35.5. Deklaracja XML 35.6. Deklaracje podstawowe 35.7. Instrukcje przetwarzania 35.8. Jednostki (encje) 35.9. Przestrzenie nazw 35.10. Atrybuty predefiniowane Rozdział 36. Pliki XML w Pythonie 36.1. Odczyt plików XML 36.2. Modyfikacja i zapis plików XML 36.3. Konstruowanie dokumentu 36.4. Konwersja na format XML CZĘŚĆ VI. PRZESZUKIWANIE DOKUMENTÓW ZNACZNIKOWYCH Rozdział 37. Gramatyki parsujące i gramatyki formalne 37.1. Gramatyki formalne 37.2. Gramatyka w standardzie EBNF 37.3. Gramatyka parsująca w wyrażeniu regularnym 37.4. Użycie gramatyk parsujących w Pythonie 37.4.1. Gramatyka w wyrażeniu regularnym 37.4.2. Gramatyka w notacji EBNF Rozdział 38. JSON Pointer 38.1. Składnia wskaźników JSON Pointer 38.2. JSON Pointer w Pythonie Rozdział 39. JSON Path 39.1. Składnia ścieżek JSON Path 39.2. JSON Path w Pythonie Rozdział 40. XPath 40.1. Wersje składni XPath 40.2. Struktura ścieżek XPath 40.3. Pomijanie elementów 40.4. Predykaty 40.5. Łączenie wyników 40.6. Operatory logiczne 40.7. Operatory arytmetyczne 40.8. Funkcje napisowe 40.9. Funkcje agregujące 40.10. Wyodrębnianie elementów struktury węzła 40.11. Funkcje konwertujące 40.12. XPath w Pythonie Rozdział 41. XQuery 41.1. Wyrażenia FLWOR 41.2. Dodatkowe operatory porównania 41.3. Instrukcje warunkowe 41.4. Funkcje użytkownika CZĘŚĆ VII. SCHEMATY FORMATÓW WYMIANY DANYCH Rozdział 42. JSON Schema 42.1. Słowa kluczowe 42.1.1. Metajęzykowe słowa kluczowe 42.1.2. Wersja bazowego schematu i identyfikator własnego schematu ($schema, $id) 42.1.3. Schematy zewnętrzne i zagnieżdżone ($ref, $id, $defs) 42.1.4. Odwołania rekurencyjne 42.1.5. Zewnętrzne przestrzenie nazw ($vocabulary) 42.1.6. Wielokrotne użycie obiektów ($anchor) 42.1.7. Odwołania dynamiczne ($dynamicAnchor, $dynamicRef) 42.1.8. Komentarze ($comment) 42.2. Anotacje (title, description, default, examples, deprecated) 42.3. Ograniczenia 42.3.1. Specyfikacja typu (type) 42.3.2. Typ wyliczeniowy (enum) 42.3.3. Ograniczenia napisów (maxLength, minLength, pattern) 42.3.4. Ograniczenia liczb (multipleOf, minimum, exclusiveMinimum, maximum, exclusiveMaximum) 42.3.5. Ograniczenia tablic (items, maxItems, minItems, uniqueItems, contains) 42.3.6. Ograniczenia obiektów (maxProperties,minProperties, required, properties, patternProperties,additionalProperties, propertyNames, dependencies, dependentRequired,dependentSchemas) 42.3.7. Wartości stałe (const) 42.3.8. Ograniczenia danych binarnych osadzonych w tekście (contentMediaType, contentEncoding, contentSchema) 42.4. Operatory warunków (allOf, anyOf, oneOf) 42.5. Wyrażenia warunkowe (if, then, else) 42.6. Specyfikacja głównego elementu (korzenia) 42.7. Kolizje nazw 42.8. JSON Schema w Pythonie Rozdział 43. XML Schema 43.1. Puste schematy 43.2. Przestrzeń nazw XML Schema 43.3. Własna przestrzeń nazw 43.4. Łączenie schematu z dokumentem XML 43.5. Typy elementów i atrybutów 43.5.1. Typy wbudowane 43.5.2. Typy proste 43.5.3. Typy złożone 43.6. Deklaracje zawartości elementów 43.6.1. Definicja elementu z treścią w typie wbudowanym bez atrybutów 43.6.2. Definicja elementu z treścią w typie wbudowanym z atrybutami 43.6.3. Element z podelementami bez atrybutów 43.6.4. Element z podelementami z atrybutami 43.6.5. Element pusty bez atrybutów 43.6.6. Element pusty z atrybutami 43.6.7. Element z treścią w typie zmodyfikowanym bez atrybutów 43.6.8. Element z treścią w typie zmodyfikowanym z atrybutami 43.6.9. Element z treścią mieszaną bez atrybutów 43.6.10. Element z treścią mieszaną z atrybutami 43.7. Ograniczenia związane z elementami i atrybutami 43.7.1. Aspekty 43.7.2. Łączenie aspektów 43.7.3. Blokowanie wartości aspektów 43.7.4. Liczba wystąpień elementu 43.7.5. Opcjonalność atrybutu 43.7.6. Treści i wartości domyślne i stałe 43.7.7. Elementy i atrybuty nieokreślone 43.8. Wyprowadzanie typów 43.8.1. Blokady wyprowadzeń 43.8.2. Typy abstrakcyjne 43.8.3. Deklaracje globalne i lokalne typów 43.9. Składacze 43.10. Inne składniki schematów 43.10.1. Odwołania 43.10.2. Grupy elementów i atrybutów 43.10.3. Listy i kombinacje 43.10.4. Elementy zastępcze 43.10.5. Klucze i wartości unikatowe 43.11. Automatyczne generowanie schematów XML Schema 43.11.1. XSD/XML Schema Generator 43.11.2. Visual Studio 43.12. Mapowanie dokumentu XML w programie MS Excel 43.13. Pliki XML w Excelu - importowanie i eksportowanie danych 43.14. XML Schema w Pythonie Bibliografia Skorowidz O autorze: Piotr Rybka - doktor nauk humanistycznych, polonista, językoznawca, informatyk. Prowadził zajęcia na Uniwersytecie Śląskim i w Akademii Górniczo-Hutniczej. Pracował w Instytucie Języka Polskiego PAN. Autor książek i artykułów. Zainteresowanie fonetyką doprowadziło go do programowania w C# i Pythonie - używał ich do analizy akustycznej, automatycznej transkrypcji i generowania tekstów języka naturalnego. W czasie wolnym wyszukuje i kolekcjonuje dobrą muzykę.

Specyfikacja

Podstawowe informacje

Autor
  • Piotr Rybka
Wydawnictwo
  • Helion
Okładka
  • Miękka
Rok wydania
  • 2025
Ilość stron
  • 400
Tematyka
  • Programowanie
ISBN
  • 9788328921696