Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II

Lista Ofert

Opis

Metody statystyczne są kluczowym narzędziem w data science, mimo to niewielu analityków danych zdobyło wykształcenie w ich zakresie. Może im to utrudniać uzyskiwanie dobrych efektów. Zrozumienie praktycznych zasad statystyki okazuje się ważne również dla programistów R i Pythona, którzy tworzą rozwiązania dla data science. Kursy podstaw statystyki rzadko jednak uwzględniają tę perspektywę, a większość podręczników do statystyki w ogóle nie zajmuje się narzędziami wywodzącymi się z informatyki. To drugie wydanie popularnego podręcznika statystyki przeznaczonego dla analityków danych. Uzupełniono je o obszerne przykłady w Pythonie oraz wyjaśnienie, jak stosować poszczególne metody statystyczne w problemach data science, a także jak ich nie używać. Skoncentrowano się też na tych zagadnieniach statystyki, które odgrywają istotną rolę w data science. Wyjaśniono, które koncepcje są ważne i przydatne z tej perspektywy, a które mniej istotne i dlaczego. Co ważne, poszczególne koncepcje i zagadnienia praktyczne przedstawiono w sposób przyswajalny i zrozumiały również dla osób nienawykłych do posługiwania się statystyką na co dzień. W książce między innymi: analiza eksploracyjna we wstępnym badaniu danych próby losowe a jakość dużych zbiorów danych podstawy planowania eksperymentów regresja w szacowaniu wyników i wykrywaniu anomalii statystyczne uczenie maszynowe uczenie nienadzorowane a znaczenie danych niesklasyfikowanych Statystyka: klasyczne narzędzia w najnowszych technologiach! Spis treści: Przedmowa Konwencja zastosowana w tej książce Wykorzystanie przykładów kodu Podziękowania Rozdział 1. Badania eksploracyjne Elementy danych uporządkowanych Dla pogłębienia wiedzy Dane stabelaryzowane Ramki danych i indeksy Niestabelaryzowane struktury danych Dla pogłębienia wiedzy Miary położenia Średnia Mediana i estymatory odporne Wartości odstające Przykład: miara położenia dla wielkości populacji i wskaźnika morderstw Dla pogłębienia wiedzy Miary rozproszenia Odchylenie standardowe i powiązane estymatory Estymatory oparte na percentylach Przykład: szacowanie zmienności dla populacji Stanów Zjednoczonych Dla pogłębienia wiedzy Badanie rozkładu danych Percentyle i boxploty Tablica częstości i histogramy Szacowanie i wykresy gęstości rozkładu Dla pogłębienia wiedzy Badanie danych binarnych i skategoryzowanych Moda Wartość oczekiwana Prawdopodobieństwo Dla pogłębienia wiedzy Korelacja Wykres punktowy Dla pogłębienia wiedzy Badanie dwóch lub więcej zmiennych Wykres przedziałów heksagonalnych i wykres konturowy (przedstawianie danych numerycznych względem danych numerycznych) Dwie zmienne skategoryzowane Dane kategoryzowane i numeryczne Wizualizacja wielu zmiennych Dla pogłębienia wiedzy Podsumowanie Rozdział 2. Rozkłady danych i prób Losowy dobór i obciążenie próby Obciążenie Dobór losowy Rozmiar a jakość: kiedy rozmiar ma znaczenie? Średnia z próby a średnia z populacji Dla pogłębienia wiedzy Błąd doboru Regresja do średniej Dla pogłębienia wiedzy Rozkład próbkowania dla statystyki Centralne twierdzenie graniczne Błąd standardowy Dla pogłębienia wiedzy Próby bootstrapowe Ponowne próbkowanie a próby bootstrapowe Dla pogłębienia wiedzy Przedziały ufności Dla pogłębienia wiedzy Rozkład normalny Standaryzowany rozkład normalny i wykres K-K Rozkłady z długimi ogonami Dla pogłębienia wiedzy Rozkład t-Studenta Dla pogłębienia wiedzy Rozkład binarny Dla pogłębienia wiedzy Rozkład chi-kwadrat Dla pogłębienia wiedzy Rozkład F Dla pogłębienia wiedzy Rozkład Poissona i jego pochodne Rozkład Poissona Rozkład wykładniczy Szacowanie współczynnika porażki Rozkład Weibulla Dla pogłębienia wiedzy Podsumowanie Rozdział 3. Eksperymenty statystyczne i testowanie istotności Test A/B Po co Ci grupa kontrolna? Dlaczego tylko A/B? Dlaczego nie C, D itd.? Dla pogłębienia wiedzy Testowanie hipotezy Hipoteza zerowa Hipoteza alternatywna Test jednostronny i test dwustronny Dla pogłębienia wiedzy Testy randomizacyjne Test permutacyjny Przykład: licznik odwiedzin strony Zupełny test permutacyjny i bootstrap Test permutacyjny: podstawa w data science Dla pogłębienia wiedzy Istotność statystyczna i p-wartość p-wartość Alfa Kontrowersje związane z p-wartością Istotność praktyczna Błędy pierwszego i drugiego rodzaju Data science i p-wartość Dla pogłębienia wiedzy Test t Dla pogłębienia wiedzy Testowanie wielokrotne Dla pogłębienia wiedzy Stopnie swobody Dla pogłębienia wiedzy ANOVA Statystyka F Dwustronna ANOVA Dla pogłębienia wiedzy Test chi-kwadrat Test chi-kwadrat: podejście randomizacyjne Test chi-kwadrat: teoria Dokładny test Fishera Znaczenie testu chi-kwadrat w data science Dla pogłębienia wiedzy Algorytm Wielorękiego Bandyty Dla pogłębienia wiedzy Moc i rozmiar próby Rozmiar próby Dla pogłębienia wiedzy Podsumowanie Rozdział 4. Regresja i predykcja Prosta regresja liniowa Równanie regresji Dopasowanie wartości i rezydua Metoda najmniejszych kwadratów Predykcja a objaśnienie (profilowanie) Dla pogłębienia wiedzy Regresja wieloraka Przykład: wartość domów w King County Ocena modelu Kroswalidacja Dobór modelu i regresja krokowa Regresja ważona Dla pogłębienia wiedzy Predykcja z wykorzystaniem regresji Niebezpieczeństwa związane z ekstrapolacją Przedziały ufności i predykcji Zmienne skategoryzowane w regresji Zmienne fikcyjne Zmienne skategoryzowane na wielu poziomach Uporządkowane zmienne skategoryzowane Interpretacja równania regresji Predyktory skorelowane Współliniowość Zmienne zakłócające Interakcje i efekty główne Diagnostyka regresji Wartości odstające Obserwacje wpływowe Heteroskedastyczność, anormalność i błędy skorelowane Wykresy częściowych rezyduów i nieliniowość Regresja wielomianowa i regresja sklejana Wielomian Funkcja sklejana Uogólnione modele addytywne Dla pogłębienia wiedzy Podsumowanie Rozdział 5. Klasyfikacja Naiwny klasyfikator bayesowski Dlaczego klasyfikator bayesowski jest niepraktyczny? Naiwne rozwiązanie Numeryczne zmienne objaśniające Dla pogłębienia wiedzy Analiza dyskryminacyjna Macierz kowariancji Liniowy dyskryminator Fishera Prosty przykład Dla pogłębienia wiedzy Regresja logistyczna Funkcja odpowiedzi logistycznej i logit Regresja logistyczna i GLM Uogólnione modele liniowe Wartości prognozowane na podstawie regresji logistycznej Interpretacja współczynników i iloraz szans Regresja liniowa i regresja logistyczna: podobieństwa i różnice Dopasowanie modelu Ocena modelu Analiza reszt Dla pogłębienia wiedzy Ewaluacja modeli klasyfikacji Macierz błędów Problem mało licznych klas Precyzja, czułość i swoistość Krzywa ROC Pole pod wykresem krzywej ROC Lift Dla pogłębienia wiedzy Strategie dla niezbilansowanych danych Undersampling Oversampling i zwiększenie/obniżenie wag Generowanie danych Klasyfikacja oparta na kosztach Badanie prognozy Dla pogłębienia wiedzy Podsumowanie Rozdział 6. Statystyczne uczenie maszynowe K-najbliższych sąsiadów Przykład: przewidywanie opóźnienia w spłacie pożyczki Metryki odległości Kodowanie 1 z n Standaryzacja (normalizacja, z-wartość) Dobór K KNN w doborze cech Drzewa decyzyjne Prosty przykład Algorytm rekursywnego podziału Pomiar homogeniczności lub zanieczyszczenia Zatrzymanie wzrostu drzewa Kontrolowanie złożoności drzewa w R Kontrolowanie złożoności drzewa w Pythonie Prognoza ciągłych wartości Jak są wykorzystywane drzewa Dla pogłębienia wiedzy Bagging i lasy losowe Bagging Las losowy Istotność zmiennej Hiperparametry Boosting Algorytm wzmacniania XGBoost Regularyzacja: unikanie nadmiernego dopasowania Hiperparametry i kroswalidacja Podsumowanie Rozdział 7. Uczenie nienadzorowane Analiza głównych składowych Prosty przykład Obliczanie głównych składowych Interpretacja głównych składowych Analiza odpowiedniości Dla pogłębienia wiedzy Metoda K-średnich (centroidów) Prosty przykład Algorytm K-średnich Interpretacja klastrów Dobór liczby klastrów Klasteryzacja hierarchiczna Prosty przykład Dendrogram Algorytm aglomeracyjny Miary podobieństwa Klasteryzacja oparta na modelu Wielowymiarowy rozkład normalny Mieszaniny rozkładów normalnych Dobór liczby klastrów Dla pogłębienia wiedzy Skalowanie i zmienne skategoryzowane Skalowanie zmiennych Zmienne dominujące Zmienne skategoryzowane i odległość Gowera Problem z klasteryzacją danych mieszanych Podsumowanie Bibliografia O autorach Kolofon

Rozwiń Zwiń

Specyfikacja

Podstawowe informacje

Autor	Bruce Peter, Andrew Bruce, Peter Gedeck
Wybrane wydawnictwa	Helion
Okładka	Miękka
Rok wydania	2021
Ilość stron	296
Tematyka	Podręczniki akademickie Programowanie
ISBN	9788328374270

Pozostałe

Model

miękka

Opinie Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II Legnica

Na liście znajdują się opinie, które zostały zweryfikowane (potwierdzone zakupem) i oznaczone są one zielonym znakiem Zaufanych Opinii. Opinie niezweryfikowane nie posiadają wskazanego oznaczenia.

Ocena ogólna

4 na podstawie 1 opinia

Użytkownik Ceneo 27 listopada 2019
4
4,0/5

Rozwiń Zwiń

Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II Legnica

4