Promocja

JĘZYK R I ANALIZA DANYCH W PRAKTYCE

NINA ZUMEL, JOHN MOUNT

Wydawnictwo: HELION

Cena: ~~99.00 zł~~ 78.21 zł brutto

Koszty dostawy:

Paczkomaty InPost 14.99 zł brutto
Poczta Polska - odbiór w punkcie 9.99 zł brutto
Poczta Polska - przedpłata 15.99 zł brutto
Poczta Polska - pobranie 19.99 zł brutto
Kurier DHL - przedpłata 18.99 zł brutto
Kurier DHL - pobranie 21.99 zł brutto
Odbiór osobisty - UWAGA - uprzejmie prosimy poczekać na informację z księgarni o możliwości odbioru zamówienia - 0.00 zł brutto

Opis produktu
Opinie kupujących
Zapytaj o produkt

Opis

Opis produktu

ISBN: 978-83-283-6816-3

560 stron
format: B5
oprawa: miękka
Rok wydania: 2021

Analiza danych albo nauka o danych jest interdyscyplinarną dziedziną, dzięki której hipotezy i dane przekształca się w zrozumiałe przewidywania. Predykcyjna analiza danych przynosi wymierne korzyści w wielu dziedzinach, od polityki począwszy, a na udzielaniu kredytów skończywszy. Osobą odpowiedzialną za tę magię jest analityk danych - człowiek, który zbiera i przygotowuje dane, wybiera technikę modelowania, pisze kod, weryfikuje wyniki swojej pracy, wreszcie komunikuje je interesariuszom. Jak widać, profesja analityka danych jest wyjątkowo atrakcyjna i wyjątkowo wymagająca. Aby określić umiejętności praktyczne wymagane w zawodzie analityka danych, najlepiej prześledzić realizacje konkretnych projektów z wykorzystaniem rzeczywistych danych.

Ta książka jest samouczkiem prezentującym praktyczne aspekty dziesiątek technik, które wykorzystują profesjonalni analitycy danych. Główny nacisk autorzy położyli na zadania: ich zaplanowanie, przygotowanie, realizację i prezentację wyników. Dzięki praktycznemu podejściu z tej pozycji skorzystają zarówno analitycy biznesowi, jak i badacze danych. Pokazano tu, w jakich przypadkach i w jaki sposób należy stosować techniki statystyczne oraz metody uczenia maszynowego. W każdym rozdziale omówiono nowe narzędzia w kontekście rzeczywistych, praktycznych projektów. W rezultacie powstał potężny zbiór przydatnych ćwiczeń napisanych w języku R, opatrzonych wartościowymi wskazówkami, komentarzami i podpowiedziami.

SPIS TREŚCI

Przedmowa

Wstęp

Podziękowania

Informacje o książce

Informacje o autorach

Informacje o autorach przedmowy

CZĘŚĆ I. WPROWADZENIE DO ANALIZY DANYCH

1. Proces analizy danych
1.1. Role w projekcie analizy danych
1.1.1. Role w projekcie
1.2. Etapy projektu analizy danych
1.2.1. Definiowanie celu
1.2.2. Gromadzenie danych i zarządzanie nimi
1.2.3. Modelowanie
1.2.4. Ocena i krytyka modelu
1.2.5. Prezentacja i dokumentowanie
1.2.6. Wdrażanie i utrzymywanie modelu
1.3. Wyznaczanie oczekiwań
1.3.1. Określenie dolnego pułapu wydajności modelu
Podsumowanie

2. Wprowadzenie do języka R i danych
2.1. Początki z R
2.1.1. Instalowanie R, narzędzi i przykładów
2.1.2. Programowanie w R
2.2. Praca z danymi przechowywanymi w plikach
2.2.1. Praca z danymi ustrukturyzowanymi z poziomu plików lub adresów URL
2.2.2. Praca z mniej ustrukturyzowanymi danymi
2.3. Praca z relacyjnymi bazami danych
2.3.1. Przykładowe dane o rozmiarze produkcyjnym
Podsumowanie

3. Eksploracja danych
3.1. Wykrywanie problemów za pomocą statystyk podsumowujących
3.1.1. Typowe problemy wykrywane za pomocą podsumowania danych
3.2. Wykrywanie problemów za pomocą grafiki i wizualizacji
3.2.1. Wizualne sprawdzanie rozkładów dla jednej zmiennej
3.2.2. Wizualne sprawdzanie relacji pomiędzy dwiema zmiennymi
Podsumowanie

4. Zarządzanie danymi
4.1. Oczyszczanie danych
4.1.1. Oczyszczanie danych specyficznych dla danej dziedziny
4.1.2. Naprawianie brakujących wartości
4.1.3. Pakiet vtreat służący do automatycznego naprawiania brakujących danych
4.2. Przekształcenia danych
4.2.1. Normalizacja
4.2.2. Środkowanie i skalowanie
4.2.3. Przekształcenia logarytmiczne rozkładów nierównomiernych i szerokich
4.3. Losowanie danych do modelowania i walidacji
4.3.1. Zbiory uczący i testowy
4.3.2. Tworzenie kolumny grupowania próby
4.3.3. Grupowanie rekordów
4.3.4. Pochodzenie danych
Podsumowanie

5. Inżynieria i kształtowanie danych
5.1. Dobieranie danych
5.1.1. Wyznaczanie podzbiorów rzędów i kolumn
5.1.2. Usuwanie rekordów z brakującymi danymi
5.1.3. Wyznaczanie kolejności rzędów
5.2. Podstawowe przekształcenia danych
5.2.1. Dodawanie nowych kolumn
5.2.2. Inne proste operacje
5.3. Przekształcenia agregacyjne
5.3.1. Łączenie wielu rzędów w rzędy podsumowujące
5.4. Wielotablicowe przekształcenia danych
5.4.1. Szybkie łączenie co najmniej dwóch uporządkowanych ramek danych
5.4.2. Główne metody łączenia danych pochodzących z wielu tabel
5.5. Transformacje przestawiające
5.5.1. Przenoszenie danych z formy szerokiej do wysokiej
5.5.2. Przenoszenie danych z formy wysokiej do szerokiej
5.5.3. Współrzędne danych
Podsumowanie

CZĘŚĆ II. METODY MODELOWANIA

6. Wybór i ocena modeli
6.1. Odwzorowywanie problemów na zadania uczenia maszynowego
6.1.1. Zadania klasyfikacji
6.1.2. Zadania obliczania wyniku
6.1.3. Grupowanie - praca bez znajomości zmiennych docelowych
6.1.4. Odwzorowanie problemu na metodę
6.2. Ocenianie modeli
6.2.1. Przetrenowanie
6.2.2. Wskaźniki wydajności modelu
6.2.3. Ocenianie modeli klasyfikacyjnych
6.2.4. Ocenianie modelu obliczania wyników
6.2.5. Ocenianie modeli prawdopodobieństwa
6.3. Metoda lokalnie wytłumaczalnych wyjaśnień niezależnych od modelu służąca do wyjaśniania przewidywań modelu
6.3.1. LIME - zautomatyzowane sprawdzanie poprawności działania systemu
6.3.2. Stosowanie metody LIME - mały przykład
6.3.3. Metoda LIME w klasyfikacji tekstu
6.3.4. Uczenie klasyfikatora tekstu
6.3.5. Wyjaśnianie przewidywań klasyfikatora
Podsumowanie

7. Regresja liniowa i logistyczna
7.1. Stosowanie regresji liniowej
7.1.1. Mechanizm działania regresji liniowej
7.1.2. Tworzenie modelu regresji liniowej
7.1.3. Uzyskiwanie predykcji
7.1.4. Wyszukiwanie relacji i wydobywanie przydatnych informacji
7.1.5. Odczytywanie podsumowania modelu i określanie jakości współczynników
7.1.6. Kluczowe wnioski na temat regresji liniowej
7.2. Stosowanie regresji logistycznej
7.2.1. Mechanizm działania regresji logistycznej
7.2.2. Tworzenie modelu regresji logistycznej
7.2.3. Uzyskiwanie przewidywań
7.2.4. Wyszukiwanie relacji i wydobywanie użytecznych informacji z modeli logistycznych
7.2.5. Odczytywanie podsumowania modelu i charakteryzowanie współczynników
7.2.6. Kluczowe wnioski na temat regresji logistycznej
7.3. Regularyzacja
7.3.1. Przykład quasi-separacji
7.3.2. Rodzaje regresji regularyzowanej
7.3.3. Regresja regularyzowana przy użyciu pakietu glmnet
Podsumowanie

8. Zaawansowane przygotowywanie danych
8.1. Cel pakietu vtreat
8.2. Konkurs KDD i zestaw danych KDD Cup 2009
8.2.1. Pierwsze kroki z danymi KDD Cup 2009
8.2.2. Metoda "słonia w składzie porcelany"
8.3. Podstawowe przygotowywanie danych do zadań klasyfikacji
8.3.1. Ramka oceny zmiennej
8.3.2. Odpowiednie stosowanie planu naprawy
8.4. Zaawansowane przygotowywanie danych do zadań klasyfikacji
8.4.1. Korzystanie z metody mkCrossFrameCExperiment()
8.4.2. Budowanie modelu
8.5. Przygotowywanie danych do zadań regresji
8.6. Opanowanie pakietu vtreat
8.6.1. Fazy mechanizmu vtreat
8.6.2. Brakujące wartości
8.6.3. Zmienne wskaźnikowe
8.6.4. Kodowanie wpływu
8.6.5. Plan naprawy
8.6.6. Ramka krzyżowa
Podsumowanie

9. Metody nienadzorowane
9.1. Analiza skupień
9.1.1. Odległości
9.1.2. Przygotowanie danych
9.1.3. Hierarchiczna analiza skupień za pomocą funkcji hclust()
9.1.4. Algorytm centroidów
9.1.5. Przypisywanie nowych punktów do skupień
9.1.6. Kluczowe wnioski na temat analizy skupień
9.2. Reguły asocjacyjne
9.2.1. Przegląd reguł asocjacyjnych
9.2.2. Przykładowy problem
9.2.3. Wydobywanie reguł asocjacyjnych za pomocą pakietu arules
9.2.4. Kluczowe wnioski na temat reguł asocjacyjnych
Podsumowanie

10. Zaawansowane metody uczenia maszynowego
10.1. Metody drzewa
10.1.1. Podstawowe drzewo decyzyjne
10.1.2. Usprawnianie przewidywań za pomocą agregacji
10.1.3. Dalsze usprawnianie przewidywań za pomocą lasów losowych
10.1.4. Drzewa wzmacniane gradientowo
10.1.5. Kluczowe wnioski na temat modeli bazujących na drzewach
10.2. Wykrywanie relacji niemonotonicznych za pomocą uogólnionych modeli addytywnych
10.2.1. Mechanizm działania modelu GAM
10.2.2. Przykład regresji jednowymiarowej
10.2.3. Wydobywanie relacji nieliniowych
10.2.4. Stosowanie modelu GAM na rzeczywistych danych
10.2.5. Stosowanie modelu GAM w regresji logistycznej
10.2.6. Kluczowe wnioski na temat modelu GAM
10.3. Rozwiązywanie problemów "nierozdzielnych" za pomocą maszyn wektorów nośnych
10.3.1. Używanie maszyn SVM do rozwiązywania problemów
10.3.2. Mechanizm działania maszyn wektorów nośnych
10.3.3. Mechanizm działania funkcji jądra
10.3.4. Kluczowe wnioski na temat maszyn wektorów nośnych i metod z użyciem jądra
Podsumowanie

CZĘŚĆ III. PRACA W PRAWDZIWYM ŚWIECIE

11. Dokumentowanie i wdrażanie
11.1. Przewidywanie szumu medialnego
11.2. Tworzenie dokumentacji poszczególnych etapów za pomocą formatu R Markdown
11.2.1. Czym jest R Markdown?
11.2.2. Szczegóły techniczne silnika knitr
11.2.3. Dokumentowanie danych Buzz i tworzenie modelu za pomocą pakietu knitr
11.3. Sporządzanie dokumentacji bieżącej za pomocą komentarzy i kontroli wersji
11.3.1. Pisanie przydatnych komentarzy
11.3.2. Rejestrowanie historii za pomocą kontroli wersji
11.3.3. Eksplorowanie modelu za pomocą kontroli wersji
11.3.4. Udostępnianie pracy za pomocą kontroli wersji
11.4. Wdrażanie modeli
11.4.1. Wdrażanie wersji demonstracyjnych za pomocą narzędzia Shiny
11.4.2. Wdrażanie modeli jako usług HTTP
11.4.3. Wdrażanie modeli poprzez eksportowanie
11.4.4. Kluczowe wnioski
Podsumowanie

12. Tworzenie użytecznych prezentacji
12.1. Prezentowanie rezultatów sponsorowi projektu
12.1.1. Podsumowanie celów projektu
12.1.2. Określanie wyników projektu
12.1.3. Uzupełnianie szczegółów
12.1.4. Sporządzanie zaleceń i omawianie przyszłych planów
12.1.5. Kluczowe wnioski na temat prezentacji przeznaczonej dla sponsora projektu
12.2. Prezentowanie modelu użytkownikom końcowym
12.2.1. Podsumowanie celów projektu
12.2.2. Omówienie dopasowania modelu do cyklu pracy
12.2.3. Prezentowanie sposobu korzystania z modelu
12.2.4. Kluczowe wnioski na temat prezentacji przeznaczonej dla użytkowników końcowych
12.3. Prezentowanie pracy innym analitykom danych
12.3.1. Wprowadzenie do problemu
12.3.2. Omówienie powiązanej pracy
12.3.3. Opis Twojego rozwiązania
12.3.4. Omówienie wyników i przyszłych planów
12.3.5. Kluczowe wnioski na temat prezentacji przeznaczonej dla partnerów
Podsumowanie

Dodatek A. Korzystanie z R i innych narzędzi

Dodatek B. Ważne pojęcia z dziedziny statystyki

Dodatek C. Bibliografia