28.04.2020 by Milena Riedl

Od Big Data do Smart Data

W pierwszym artykule z naszej serii poświęconej Big Data, przedstawiliśmy już pierwszy wgląd w termin Big Data i wskazaliśmy, jakie korzyści może przynieść przetwarzanie danych w produkcji, a zwłaszcza w analizie termicznej. W kolejnym artykule chcielibyśmy bardziej szczegółowo przedstawić termin Data Science i pokazać niektóre z jego popularnych metod.

Michaela Lang & Jigyasa Sakhuja, Data Scientists w NETZSCH Analyzing & Testing

Definicja nauki o danych

Jak już opisuje termin Data Science, jest to nauka zajmująca się wydobywaniem cennych informacji z danych. Celem jest wykorzystanie tych informacji do poprawy jakości i wydajności określonego procesu, a nawet do uzyskania z niego nowych spostrzeżeń. Z pomocą Data Science możliwe jest odkrycie korelacji, których nie można łatwo rozpoznać. Dziedzina Data Science obejmuje wiele różnych obszarów wiedzy specjalistycznej. Oprócz matematyki / statystyki i informatyki, bardzo ważną rolę odgrywa wiedza specjalistyczna. Szczególnie w analizie termicznej konieczne jest prawidłowe zrozumienie i interpretacja procesów chemicznych i fizycznych, aby nie wyciągać błędnych wniosków z mierzonych zestawów danych i stosować właściwe metody analizy.

W NETZSCH Analyzing & Testing dostępne są wszystkie niezbędne obszary wiedzy specjalistycznej, dzięki czemu NETZSCH Analyzing & Testing jest w stanie zastosować metody Data Science w dziedzinie analizy termicznej.

W następnej sekcji chcielibyśmy przedstawić niektóre metody analizy danych, które są wykorzystywane w Data Science.

Techniki analizy danych

Dysponując danymi jakościowymi w ilości large, analityk danych może rozpocząć główne zadanie - przekształcenie zbioru danych w wartościowe informacje. Po wstępnym przetworzeniu danych można rozpocząć ich analizę. Poniżej opisano, jak podejść do tego wyzwania.

Eksploracja danych

W przypadku eksploracji danych celem jest zrozumienie danych w podstawowy sposób. Należy zidentyfikować strukturę danych i zbadać rozkład wartości. Dzięki eksploracji danych widzimy pierwsze korelacje między danymi i pozwala nam to dowiedzieć się, którą metodę najlepiej zastosować do analizy.

Analiza predykcyjna

Jest to podzbiór Business Intelligence i Business Analytics. Podczas analizy predykcyjnej zestawy danych są oceniane pod kątem wzorców, aby móc przewidywać trendy i przyszłe wyniki. Do analizy predykcyjnej można wykorzystać kilka metod. Poniżej chcielibyśmy przedstawić krótki przegląd niektórych z tych aplikacji:

  • Machine Learning:

Jest to zastosowanie sztucznej inteligencji, które umożliwia systemowi automatyczne zdobywanie wiedzy i doskonalenie się na podstawie doświadczenia w czasie, bez konieczności ręcznego programowania.

Metody uczenia maszynowego pozyskują informacje z istniejących danych poprzez wyodrębnianie wzorców w zbiorach danych large. Ogólnie rzecz biorąc, zależności są rozpoznawane i uczone przez system, zwany modelem uczenia maszynowego, dzięki czemu model może przewidywać przyszłe zdarzenia lub wyniki, nawet w przypadku nowych nieznanych danych.

  • Regresja liniowa / nieliniowa:

Regresja liniowa jest jednym z najpotężniejszych i podstawowych algorytmów analizy predykcyjnej. Jego głównym celem jest przewidywanie zmiennych, tj. zmiennej docelowej opartej na jednej lub kilku zmiennych niezależnych. W przypadku regresji liniowej możliwe jest zidentyfikowanie liniowej zależności między zmienną docelową a jedną lub większą liczbą zmiennych predykcyjnych za pomocą istniejących zestawów danych, dzięki czemu można wygenerować funkcję liniową opisującą zależność.

W przeciwieństwie do tego, w przypadku regresji nieliniowej definiowana jest funkcja nieliniowa w celu wyjaśnienia związku między zmiennymi.

Dzięki informacjom o znanym związku łatwo jest przewidywać na podstawie nowych danych.

  • Klasyfikacja:

Klasyfikacja polega na przypisaniu danych do określonej kategorii. Jest to metoda uczenia maszynowego classical. Kryteria i wzorzec przypisywania danych do określonej kategorii zostały wyuczone na podstawie istniejących danych kategorialnych i mogą być teraz zastosowane do prawidłowej klasyfikacji nowych danych.

  • Klasyfikacja liniowa/nieliniowa:

Klasyfikacja liniowa jest używana, gdy mamy do czynienia z dużą liczbą cech, podczas gdy klasyfikator nieliniowy jest używany, gdy dane nie są liniowo rozdzielne.

  • Regresja logistyczna:

Jest to technika klasyfikacji używana do przewidywania prawdopodobieństwa przynależności nowej obserwacji do określonej kategorii. Niektóre z przykładów to spam e-mail, wykrywanie oszustw, oszustwa związane z transakcjami online itp.

Analiza normatywna

Głównym obszarem zainteresowania jest znalezienie najlepszego rozwiązania dla bieżącego scenariusza danych. Oprócz analizy predykcyjnej, analiza preskryptywna zawiera zalecenia dotyczące sposobu wykorzystania przewidywanych informacji do wpływania na przyszłość. Celem jest wykorzystanie informacji predykcyjnych do analizy decyzji, które należy podjąć, aby uzyskać przewidywany wynik lub mu zapobiec.

Najlepszym warunkiem wstępnym dla dobrej analizy danych jest ścisła wymiana naukowców zajmujących się danymi ze specjalistycznym działem, z którego pochodzą dane do analizy. Dzięki wieloletniemu doświadczeniu i wiedzy w zakresie analizy termicznej, NETZSCH może stosować metody Data Science w swojej dziedzinie.