Python. Podstawy nauki o danych. Wydanie II

Lista Ofert

Opis

Nauka o danych jest nową, interdyscyplinarną dziedziną, funkcjonującą na pograniczu algebry liniowej, modelowania statystycznego, lingwistyki komputerowej, uczenia maszynowego oraz metod akumulacji danych. Jest przydatna między innymi dla analityków biznesowych, statystyków, architektów oprogramowania i osób zajmujących się sztuczną inteligencją. Szczególnie praktycznym narzędziem dla tych specjalistów jest język Python, który zapewnia doskonałe środowisko do analizy danych, uczenia maszynowego i algorytmicznego rozwiązywania problemów.Niniejsza książka jest doskonałym wprowadzeniem do nauki o danych. Jej autorzy wskażą Ci prostą i szybką drogę do rozwiązywania różnych problemów z tego obszaru za pomocą Pythona oraz powiązanych z nim pakietów do analizy danych i uczenia maszynowego. Dzięki lekturze przejdziesz przez kolejne etapy modyfikowania i wstępnego przetwarzania danych, poznając przy tym podstawowe operacje związane z wczytywaniem danych, przekształcaniem ich, poprawianiem na potrzeby analiz, eksplorowaniem i przetwarzaniem. Poza podstawami opanujesz też zagadnienia uczenia maszynowego, w tym uczenia głębokiego, techniki analizy grafów oraz wizualizacji danych.Najważniejsze zagadnienia przedstawione w książce: konfiguracja środowiska Jupyter Notebook najważniejsze operacje stosowane w nauce o danych potoki danych i uczenie maszynowe wprowadzenie do grafów i wizualizacje biblioteki i pakiety Pythona służące do badań danych Nauka o danych — fascynujące algorytmy i potężne grafy! Alberto Boschetti specjalizuje się w przetwarzaniu sygnałów i statystyce. Jest doktorem inżynierii telekomunikacyjnej. Zajmuje się przetwarzaniem języków naturalnych, analityką behawioralną, uczeniem maszynowym i przetwarzaniem rozproszonym.Luca Massaron specjalizuje się w statystycznych analizach wieloczynnikowych, uczeniu maszynowym, statystyce, eksploracji danych i algorytmice. Pasjonuje się potencjałem, jaki drzemie w nauce o danych. Spis treści: O autorach (9) O recenzencie (10) Wprowadzenie (11) Rozdział 1. Pierwsze kroki (15) Wprowadzenie do nauki o danych i Pythona (16) Instalowanie Pythona (17) Python 2 czy Python 3? (18) Instalacja krok po kroku (19) Instalowanie pakietów (20) Aktualizowanie pakietów (22) Dystrybucje naukowe (22) Środowiska wirtualne (25) Krótki przegląd podstawowych pakietów (28) Wprowadzenie do środowiska Jupyter (37) Szybka instalacja i pierwsze testowe zastosowanie (41) Magiczne polecenia w Jupyterze (42) W jaki sposób notatniki Jupytera mogą być pomocne dla badaczy danych? (44) Zastępniki Jupytera (49) Zbiory danych i kod używane w książce (50) Proste przykładowe zbiory danych z pakietu scikit-learn (50) Podsumowanie (59) Rozdział 2. Przekształcanie danych (61) Proces pracy w nauce o danych (62) Wczytywanie i wstępne przetwarzanie danych za pomocą biblioteki pandas (64) Szybkie i łatwe wczytywanie danych (64) Radzenie sobie z problematycznymi danymi (67) Radzenie sobie z dużymi zbiorami danych (70) Dostęp do danych w innych formatach (73) Wstępne przetwarzanie danych (75) Wybieranie danych (78) Praca z danymi kategorialnymi i tekstowymi (81) Specjalny rodzaj danych - tekst (83) Scraping stron internetowych za pomocą pakietu Beautiful Soup (89) Przetwarzanie danych za pomocą pakietu NumPy (92) N-wymiarowe tablice z pakietu NumPy (92) Podstawowe informacje o obiektach ndarray z pakietu NumPy (93) Tworzenie tablic z pakietu NumPy (95) Przekształcanie list w jednowymiarowe tablice (95) Kontrolowanie ilości zajmowanej pamięci (96) Listy niejednorodne (98) Od list do tablic wielowymiarowych (99) Zmiana wielkości tablic (100) Tablice generowane przez funkcje z pakietu NumPy (101) Pobieranie tablicy bezpośrednio z pliku (102) Pobieranie danych ze struktur z biblioteki pandas (103) Szybkie operacje i obliczenia z użyciem pakietu NumPy (104) Operacje na macierzach (106) Tworzenie wycinków i indeksowanie tablic z pakietu NumPy (108) Dodawanie "warstw" tablic z pakietu NumPy (110) Podsumowanie (112) Rozdział 3. Potok danych (113) Wprowadzenie do eksploracji danych (113) Tworzenie nowych cech (117) Redukcja liczby wymiarów (120) Macierz kowariancji (120) Analiza głównych składowych (121) Analiza głównych składowych dla big data - typ RandomizedPCA (125) Analiza czynników ukrytych (126) Liniowa analiza dyskryminacyjna (127) Analiza ukrytych grup semantycznych (128) Analiza składowych niezależnych (129) Analiza głównych składowych oparta na funkcji jądra (129) Algorytm t-SNE (131) Ograniczone maszyny Boltzmanna (132) Wykrywanie i traktowanie wartości odstających (133) Wykrywanie obserwacji odstających za pomocą technik jednoczynnikowych (134) Klasa EllipticEnvelope (136) Klasa OneClassSVM (140) Miary używane do walidacji (144) Klasyfikacja wieloklasowa (144) Klasyfikacja binarna (147) Regresja (148) Testy i walidacja (148) Walidacja krzyżowa (153) Iteratory walidacji krzyżowej (155) Próbkowanie i bootstrapping (157) Optymalizacja hiperparametrów (159) Tworzenie niestandardowych funkcji oceny (162) Skracanie czasu przeszukiwania siatki parametrów (164) Wybór cech (166) Wybór na podstawie wariancji cech (167) Wybór za pomocą modelu jednoczynnikowego (168) Rekurencyjna eliminacja (169) Wybór na podstawie stabilności i regularyzacji L1 (171) Opakowywanie wszystkich operacji w potok (173) Łączenie cech i tworzenie łańcuchów transformacji (174) Tworzenie niestandardowych funkcji transformacji (176) Podsumowanie (177) Rozdział 4. Uczenie maszynowe (179) Przygotowywanie narzędzi i zbiorów danych (179) Regresja liniowa i logistyczna (181) Naiwny klasyfikator bayesowski (184) Algorytm kNN (187) Algorytmy nieliniowe (188) Stosowanie algorytmu SVM do klasyfikowania (190) Stosowanie algorytmów SVM do regresji (192) Dostrajanie algorytmu SVM (193) Strategie oparte na zestawach algorytmów (195) Pasting z użyciem losowych próbek (196) Bagging z użyciem słabych klasyfikatorów (196) Podprzestrzenie losowe i obszary losowe (197) Algorytmy Random Forests i Extra-Trees (198) Szacowanie prawdopodobieństwa na podstawie zestawów (200) Sekwencje modeli - AdaBoost (202) Metoda GTB (202) XGBoost (203) Przetwarzanie big data (206) Tworzenie przykładowych dużych zbiorów danych (207) Skalowalność ze względu na ilość danych (208) Radzenie sobie z szybkością napływu danych (210) Radzenie sobie z różnorodnością (211) Przegląd algorytmów z rodziny SGD (213) Wprowadzenie do uczenia głębokiego (214) Krótkie omówienie przetwarzania języka naturalnego (221) Podział na tokeny (221) Stemming (222) Oznaczanie części mowy (223) Rozpoznawanie nazw własnych (224) Stop-słowa (225) Kompletny przykład z obszaru nauki o danych - klasyfikowanie tekstu (225) Przegląd technik uczenia nienadzorowanego (227) Podsumowanie (237) Rozdział 5. Analizy sieci społecznościowych (239) Wprowadzenie do teorii grafów (239) Algorytmy dla grafów (244) Wczytywanie grafów, zapisywanie ich w pliku i pobieranie z nich podpróbek (252) Podsumowanie (255) Rozdział 6. Wizualizacje, wnioski i wyniki (257) Wprowadzenie do pakietu Matplotlib (257) Rysowanie krzywych (259) Stosowanie paneli (260) Wykresy punktowe określające relacje w danych (262) Histogramy (263) Wykresy słupkowe (264) Wyświetlanie rysunków (265) Wybrane przykłady graficzne z użyciem pakietu pandas (268) Wykresy punktowe (271) Metoda współrzędnych równoległych (273) Opakowywanie poleceń z pakietu Matplotlib (274) Wprowadzenie do biblioteki seaborn (274) Wzbogacanie możliwości z zakresu eksploracji danych (279) Interaktywne wizualizacje z użyciem pakietu Bokeh (284) Zaawansowane reprezentacje dotyczące uczenia się na podstawie danych (288) Krzywe uczenia (288) Krzywe walidacji (290) Znaczenie cech w algorytmie Random Forests (292) Wykresy częściowej zależności oparte na drzewach GBT (293) Budowanie serwera predykcji w modelu ML-AAS (294) Podsumowanie (299) Dodatek A. Utrwalanie podstaw Pythona (301) Lista zagadnień do nauki (302) Listy (302) Słowniki (304) Definiowanie funkcji (305) Klasy, obiekty i programowanie obiektowe (307) Wyjątki (308) Iteratory i generatory (309) Instrukcje warunkowe (310) Wyrażenia listowe i słownikowe (311) Nauka przez obserwację, lekturę i praktykę (311) Masowe otwarte kursy online (311) PyCon i PyData (312) Interaktywne sesje w Jupyterze (312) Nie wstydź się - podejmij wyzwanie (312) Skorowidz (315)

Rozwiń Zwiń

Specyfikacja

Podstawowe informacje

Autor	Alberto Boschetti, Luca Massaron
Rok wydania	2017

Techniczne

Format	PDF MOBI EPUB
Ilość stron	320

Dodatkowe informacje

Kategorie	Programowanie
Wydawnictwo	Helion