Algorytmy Data Science
Siedmiodniowy przewodnik
Data
science jest interdyscyplinarną dziedziną naukową łączącą osiągnięcia
uczenia maszynowego, statystyki i eksploracji danych. Umożliwia
wydobywanie nowej wiedzy z istniejących danych poprzez stosowanie
odpowiednich algorytmów i analizy statystycznej. Stworzono
dotąd wiele algorytmów tej kategorii i wciąż powstają nowe.
Stanowią one podstawę konstruowania modeli umożliwiających
wyodrębnianie określonych informacji z danych odzwierciedlających
zjawiska zachodzące w świecie rzeczywistym, pozwalają też na
formułowanie prognoz ich przebiegu w przyszłości. Algorytmy data
science są postrzegane jako ogromna szansa na zdobycie przewagi
konkurencyjnej, a ich znaczenie stale rośnie.
Ta
książka jest zwięzłym przewodnikiem po algorytmach uczenia maszynowego.
Jej cel jest prosty: w ciągu siedmiu dni masz opanować solidne podstawy
siedmiu najważniejszych dla uczenia maszynowego algorytmów.
Opisom poszczególnych algorytmów towarzyszą
przykłady ich implementacji w języku Python, a praktyczne ćwiczenia,
które znajdziesz na końcu każdego rozdziału, ułatwią Ci
lepsze zrozumienie omawianych zagadnień. Co więcej, dzięki książce
nauczysz się właściwie identyfikować problemy z zakresu data science. W
konsekwencji dobieranie odpowiednich metod i narzędzi do ich
rozwiązywania okaże się dużo łatwiejsze.
W tej książce:
- efektywne implementacje
algorytmów uczenia maszynowego w języku Python
- klasyfikacja danych przy
użyciu twierdzenia Bayesa, drzew decyzyjnych i lasów losowych
- podział danych na klastery
za pomocą algorytmu k-średnich
- stosowanie analizy
regresji w parametryzacji modeli przewidywań
- analiza
szeregów czasowych pod kątem trendów i
sezonowości danych
O
autorze
O recenzentach
Przedmowa
Do kogo kierujemy tę książkę?
Co zawiera ta książka?
Jak najlepiej wykorzystać tę książkę?
Kod przykładowych programów
Konwencje typograficzne stosowane w książce
Rozdział 1.
Klasyfikacja
na podstawie najbliższego sąsiedztwa
Subiektywne odczuwanie temperatury
Implementacja algorytmu k najbliższych sąsiadów
Dane wejściowe
Wynik klasyfikacji
Wizualizacja
Mapa Włoch przykład doboru wartości k
Analiza
Skalowanie danych prognozowanie statusu własności
Analiza
Nieeuklidesowe metryki odległości punktów klasyfikowanie
tekstów
Analiza
Klasyfikowania tekstów ciąg dalszy wielowymiarowy algorytm
k-NN
Analiza
Podsumowanie
Problemy
Subiektywne odczuwanie temperatury
Mapa Włoch przykład doboru wartości k
Status własności
Analiza
Rozdział 2.
Naiwny
klasyfikator bayesowski
Testy medyczne podstawowe zastosowanie twierdzenia Bayesa
Analiza
Podstawowe twierdzenie Bayesa i jego rozszerzenie
Twierdzenie Bayesa
Dowód
Rozszerzone twierdzenie Bayesa
Dowód
Zagramy w szachy? niezależne zdarzenia warunkujące
Analiza
Implementacja naiwnego klasyfikatora bayesowskiego
Dane wejściowe
Wynik
Zagramy w szachy? częściowo zależne zdarzenia warunkujące
Analiza
Dane wejściowe
Wynik
Chłopak czy dziewczyna? twierdzenie Bayesa dla ciągłych zmiennych
losowych
Analiza
Podsumowanie
Problemy
Analiza
Rozdział 3.
Drzewa
decyzyjne
Pływamy? reprezentowanie danych w postaci drzewa decyzyjnego
Elementy teorii informacji
Entropia informacyjna
Przykład losowe rzucanie monetą
Definicja
Zysk informacyjny
Pływamy? obliczanie zysku informacyjnego
Algorytm ID3 konstruowanie drzewa decyzyjnego
Pływamy? budowanie drzewa decyzyjnego
Implementacja w języku Python
Dane wejściowe
Wynik
Klasyfikowanie danych za pomocą drzew decyzyjnych
Przykład pływamy czy nie?
Przykład gra w szachy pod chmurką
Analiza
Dane wejściowe
Wynikowe drzewo decyzyjne
Klasyfikacja
Na zakupy przykład niespójnych danych
Analiza
Podsumowanie
Problemy
Analiza
Rozdział 4.
Lasy losowe
Ogólne zasady konstruowania lasów losowych
Pływamy? klasyfikacja za pomocą lasu losowego
Analiza
Konstruowanie lasu losowego
Losowe drzewo decyzyjne nr 0
Losowe drzewo decyzyjne nr 1
Wynikowy las losowy
Klasyfikowanie cechy na podstawie lasu losowego
Implementacja algorytmu konstruowania lasu losowego
Dane wejściowe
Wynik
Przykład zagramy w szachy?
Analiza
Konstruowanie lasu losowego
Losowe drzewo decyzyjne nr 0
Losowe drzewa decyzyjne nr 1, 2 i 3
Wynikowy las losowy
Klasyfikacja w drodze głosowania
Dane wejściowe
Wynik
Idziemy na zakupy? wnioskowanie z niespójnych danych i miara
wiarygodności wyniku
Analiza
Dane wejściowe
Wynik
Podsumowanie
Problemy
Analiza
Dane wejściowe
Wynik
Rozdział 5.
Klasteryzacja
Dochód gospodarstwa domowego niski czy wysoki?
Algorytm k-średnich
Początkowy zbiór centroidów
Wyznaczanie centroidu klastera
Przykład wykorzystanie algorytmu k-średnich do klasyfikacji
dochodów
Klasyfikowanie przez klasteryzację prognozowanie płci nieznanej osoby
Analiza
Implementacja algorytmu k-średnich
Dane wejściowe
Wynik grupowania
Status własności dobór optymalnej liczby klasterów
Analiza
Dane wejściowe
Wynik podział między dwa klastery
Wynik podział między trzy klastery
Wynik podział między cztery klastery
Wynik podział między pięć klasterów
Klasyfikowanie dokumentów semantyczne znaczenie klasteryzacji
Analiza
Dane wejściowe
Wynik podział między dwa klastery
Wynik podział między trzy klastery
Wynik podział między pięć klasterów
Podsumowanie
Problemy
Analiza
Dane wejściowe
Dwa klastery
Trzy klastery
Cztery klastery
Pięć klasterów
Wybór optymalnej liczby klasterów przy użyciu
walidacji krzyżowej
Rozdział 6.
Analiza regresji
Konwersja temperatur regresja liniowa dla danych doskonałych
Rozwiązanie analityczne
Metoda najmniejszych kwadratów w regresji liniowej
Implementacja analizy regresji liniowej w Pythonie
Kod programu
Wynik
Wizualizacja
Regresja dla danych pomiarowych prognozowanie wagi na podstawie wzrostu
Analiza
Kod programu
Wynik
Metoda spadku gradientowego i jej implementacja
Szczegóły algorytmu
Implementacja w Pythonie
Dane wejściowe
Wynik
Wizualizacja porównanie z metodą analityczną
Przewidywanie czasu przelotu na podstawie odległości
Analiza
Kod programu
Wynik
Obliczenia balistyczne model nieliniowy
Analiza
Kod programu
Wynik
Podsumowanie
Problemy
Analiza
Kod programu
Wynik
Wizualizacja
Rozdział 7.
Analiza
szeregów czasowych
Zysk w biznesie analiza trendu
Analiza
Kod programu
Wynik
Wizualizacja
Konkluzja
Sprzedaż w sklepie internetowym analiza sezonowości
Analiza
Analiza trendu
Kod programu
Wynik
Wizualizacja
Analiza sezonowości
Wizualizacja
Podsumowanie
Problemy
Analiza
Kod programu
Wynik
Wizualizacja
Wizualizacja
Dodatek A Podstawy języka Python
Przykład
Komentarze
Typy danych
int
Przykład example02_int.py
Wynik
float
Przykład example03_float.py
Wynik
Napis
Przykład example04_string.py
Wynik
Krotka
Przykład example05_tuple.py
Wynik
Lista
Przykład example06_list.py
Wynik
Zbiór
Przykład example07_set.py
Wynik
Słownik
Przykład example08_dictionary.py
Wynik
Przepływ sterowania
Instrukcje warunkowe
Przykład example09_if_else_elif.py
Wynik
Pętla for
Przykład example10_for_loop_range.py
Wynik
Przykład example11_for_loop_list.py
Wynik
Przykład example12_for_loop_set.py
Wynik
Pętla while
Przykład example13_while_loop.py
Wynik
Instrukcje break i continue
Przykład example14_break_continue.py
Wynik
Funkcje
Przykład example15_function.py
Wynik
Wejście-wyjście programu
Argumenty wywołania programu
Przykład example16_arguments.py
Wynik
Operacje na plikach
Przykład example17_file.py
Wynik
Dodatek B Statystyka
Podstawowe koncepcje
Notacja
Podstawowe pojęcia
Wnioskowanie bayesowskie
Rozkład normalny Gaussa
Walidacja krzyżowa
Testowanie A/B
Dodatek C Słownik pojęć, algorytmów i metod Data Science
208
stron, oprawa miękka