
28.04.2020 by Milena Riedl
Od velkých dat k chytrým datům
V prvním článku našeho seriálu o velkých objemech dat jsme vás již seznámili s pojmem Big Data a poukázali jsme na to, jaké přínosy může mít zpracování dat pro výrobu a zejména pro termickou analýzu. V tomto dalším článku bychom vám chtěli podrobněji představit pojem datová věda a ukázat některé z jejích běžných metod.
Michaela Lang & Jigyasa Sakhuja, datoví vědci ve společnosti NETZSCH Analyzing & Testing
Definice datové vědy
Jak již termín Data Science popisuje, jedná se o vědu, která se zabývá získáváním cenných informací z dat. Cílem je využít tyto informace ke zkvalitnění a zefektivnění určitého procesu, případně z nich získat nové poznatky. S pomocí Data Science je možné odhalit korelace, které nelze snadno rozpoznat. Oblast Data Science zahrnuje řadu různých oblastí odborných znalostí. Kromě matematiky / statistiky a informatiky hrají velmi důležitou roli odborné znalosti. Zejména v oblasti termické analýzy je nutné správně pochopit a interpretovat chemické a fyzikální procesy, aby se z naměřených souborů dat nevyvozovaly nesprávné závěry a aby se používaly správné metody analýzy.
Ve společnosti NETZSCH Analyzing & Testing jsou k dispozici všechny potřebné oblasti odborných znalostí, takže s touto výhodou NETZSCH Analyzing & Testing dokáže aplikovat metody Data Science v oblasti termické analýzy.
V následující části bychom rádi představili některé metody analýzy dat, které se v Data Science používají.
Techniky analýzy dat
S množstvím kvalitativních dat na large může datový vědec začít plnit hlavní úkol - přeměnit soubor dat na hodnotné informace. Po předzpracování dat může začít jejich analýza. V následujícím textu je popsáno, jak k tomuto úkolu přistupovat.
Zkoumání dat
Při zkoumání dat je cílem základní pochopení dat. Je třeba identifikovat strukturu dat a zkoumat rozložení hodnot. Pomocí Data Exploration nejprve vidíme korelace mezi daty a umožňuje nám zjistit, kterou metodu je nejlepší použít pro analýzu.
Prediktivní analýza
Jedná se o podmnožinu Business Intelligence a Business Analytics. Při prediktivní analýze se vyhodnocují soubory dat, aby bylo možné předvídat trendy a budoucí výstupy. Pro prediktivní analýzu lze použít několik metod. V následujícím textu bychom rádi uvedli stručný přehled některých z nich:
- Strojové učení:
Jedná se o aplikaci umělé inteligence, která umožňuje systému automaticky získávat znalosti a zdokonalovat se na základě zkušeností v průběhu času, aniž by byl ručně programován.
Metody strojového učení získávají informace z existujících dat extrakcí vzorů v souborech dat large. Obecně jsou závislosti rozpoznány a naučeny systémem, který se nazývá model strojového učení, takže model může provádět předpovědi budoucích událostí nebo výsledků i s novými neznámými daty.
- Lineární / nelineární regrese:
Lineární regrese je jedním z nejvýkonnějších a nejzákladnějších algoritmů pro prediktivní analýzu. Jejím hlavním cílem je předpovídat proměnné, tj. cílovou proměnnou, která vychází z jedné nebo více nezávislých proměnných. Pomocí lineární regrese je možné Identify lineární vztah mezi cílovou proměnnou a jednou nebo více predikčními proměnnými s existujícími soubory dat tak, aby bylo možné vytvořit lineární funkci popisující závislost.
Naproti tomu u nelineární regrese se definuje nelineární funkce, která vysvětluje vztah mezi proměnnými.
S informacemi o známém vztahu lze snadno vytvářet predikce s novými daty.
- Klasifikace:
Klasifikace zahrnuje přiřazení dat do určité kategorie. Jedná se o klasickou metodu strojového učení. Kritéria a vzor pro přiřazení dat do určité kategorie byly naučeny z existujících kategoriálních dat a nyní je lze použít ke správné klasifikaci nových dat.
- Lineární/nelineární klasifikace:
Lineární klasifikace se používá v případě, že se pracuje s velkým počtem prvků, zatímco nelineární klasifikátor se používá v případě, že data nejsou lineárně oddělitelná.
- Logistická regrese:
Je to klasifikační technika, která se používá k předpovědi pravděpodobnosti, že nové pozorování bude patřit do určité kategorie. Některé z příkladů jsou e-mailový spam, detekce podvodů, podvody při online transakcích atd.
Preskriptivní analýza
Hlavní oblastí, na kterou se zaměřujeme, je nalezení nejlepšího řešení pro současný datový scénář. Kromě prediktivní analýzy poskytuje preskriptivní analýza doporučení, jak využít předpovězené informace k ovlivnění budoucnosti. Cílem je využít informace z predikce k analýze toho, jaká rozhodnutí je třeba učinit, aby bylo dosaženo predikovaného výsledku nebo aby se mu předešlo.
Nejlepším předpokladem pro dobrou analýzu dat je úzká výměna datových vědců s odborným oddělením, odkud pocházejí analyzovaná data. Díky dlouholetým zkušenostem a znalostem v oblasti termické analýzy může NETZSCH aplikovat metody Data Science ve svém oboru.
Náhled
V dalším článku bychom vás rádi uvedli do světa strojového učení a umělé inteligence. Chceme vás seznámit s jejími základy a uvést ukázku metod strojového učení.
Zůstaňte tedy zvědaví na náš další článek z blogového seriálu o velkých datech!
Odkazy: V tomto článku se zabýváme problematikou strojového inženýrství:
- https://www.logility.com/blog/descriptive-predictive-and-prescriptive-analytics-explained/
- https://datasolut.com/was-ist-machine-learning/
- https://entwickler.de/online/development/predictive-analytics-praxis-tipps-579847089.html
- https://medium.com/ml-research-lab/chapter-4-knowledge-from-the-data-and-data-exploration-analysis-99a72379733
- https://medium.com/ml-research-lab/chapter-4-knowledge-from-the-data-and-data-exploration-analysis-99a734792733
- https://www.researchgate.net/post/What_is_the_difference_between_linear_and_nonlinear_classification_techniques
- https://towardsdatascience.com/logistic-regression-detailed-overview-46c4da4303bc