
28.04.2020 by Milena Riedl
A nagy adatoktól az intelligens adatokig
Big Data sorozatunk első cikkében már adtunk egy első betekintést a Big Data fogalmába, és rámutattunk, hogy milyen előnyökkel járhat az adatfeldolgozás a termelés és különösen a hőelemzés számára. Következő cikkünkben az adattudomány fogalmát szeretnénk részletesebben bemutatni, és bemutatni néhány elterjedt módszerét.
Írta: Michaela Lang & Jigyasa Sakhuja, a NETZSCH Analyzing & Testing adattudósai
Az adattudomány meghatározása
Amint azt már az adattudomány kifejezés is leírja, ez az a tudomány, amely az adatokból értékes információk kinyerésével foglalkozik. A cél az, hogy ezeket az információkat egy adott folyamat minőségének és hatékonyságának javítására, vagy akár új felismerések kinyerésére használjuk fel. Az adattudomány segítségével olyan összefüggéseket is fel lehet fedezni, amelyeket nem lehet könnyen felismerni. Az adattudomány területe számos különböző szakterületet foglal magában. A matematika/statisztika és az informatika mellett nagyon fontos szerepet játszik a szaktudás. Különösen a hőelemzésben szükséges a kémiai és fizikai folyamatok helyes megértése és értelmezése, hogy a mért adatsorokból ne lehessen téves következtetéseket levonni, és hogy az elemzéshez a megfelelő módszereket lehessen alkalmazni.
A NETZSCH Analyzing & Testingnél minden szükséges szakterület rendelkezésre áll, így a NETZSCH Analyzing &Testing ezzel az előnnyel képes az adattudományi módszerek alkalmazására a hőelemzés területén.
A következő részben szeretnénk bemutatni néhány adatelemzési módszert, amelyeket az adattudományban alkalmaznak.
Adatelemzési technikák
A large minőségi adatmennyiséggel az adatkutató megkezdheti a fő feladatot - az adathalmaz értékes információvá alakítását. Az adatok előfeldolgozása után kezdődhet az adatelemzés. A következőkben ismertetjük, hogyan közelíthetjük meg ezt a kihívást.
Adatkutatás
Az adatfeltárással a cél az adatok alapvető megértése. Meg kell határozni az adatok szerkezetét, és meg kell vizsgálni az értékek eloszlását. Az adatfeltárással először az adatok közötti összefüggéseket látjuk, és ez lehetővé teszi, hogy kiderítsük, melyik módszert érdemes alkalmazni az elemzéshez.
Prediktív elemzés
Ez az üzleti intelligencia és az üzleti analitika egy részhalmaza. A prediktív elemzés során az adatkészleteket mintázatokat keresve értékelik, hogy képesek legyenek megjósolni a trendeket és a jövőbeli kimeneteket. A prediktív elemzéshez számos módszer használható. A következőkben néhány ilyen alkalmazásról szeretnénk rövid áttekintést adni:
- Gépi tanulás:
A mesterséges intelligencia egyik alkalmazása, amely lehetővé teszi a rendszer számára, hogy idővel, kézi programozás nélkül, automatikusan ismereteket szerezzen, és a tapasztalatok alapján fejlessze magát.
A gépi tanulási módszerek a meglévő adatokból szereznek információt azáltal, hogy mintákat vonnak ki a large adathalmazokból. Általában a függőségeket a rendszer, az úgynevezett Machine Learning modell felismeri és megtanulja, így a jövőbeli eseményekre vagy eredményekre vonatkozó előrejelzéseket a modell új, ismeretlen adatok esetén is meg tudja tenni.
- Lineáris / nem lineáris regresszió:
A lineáris regresszió az egyik legerősebb és legalapvetőbb algoritmus a prediktív elemzéshez. Fő célja a változók előrejelzése, azaz egy vagy több független változóra épülő célváltozó előrejelzése. A lineáris regresszióval a célváltozó és egy vagy több előrejelző változó között lineáris kapcsolat azonosítható a meglévő adatsorok segítségével, így a függőség leírására lineáris függvény hozható létre.
Ezzel szemben a nemlineáris regresszióval egy nemlineáris függvényt határoznak meg a változók közötti kapcsolat magyarázatára.
Az ismert kapcsolatra vonatkozó információk birtokában könnyen lehet új adatokkal előrejelzéseket készíteni.
- Osztályozás:
Az osztályozás során az adatokat egy adott kategóriába soroljuk. Ez egy klasszikus gépi tanulási módszer. Az adatok egy bizonyos kategóriába való besorolásának kritériumait és mintáját a meglévő kategorikus adatokból tanulták meg, és most már alkalmazhatók az új adatok helyes osztályozására.
- Lineáris/nem lineáris osztályozás:
A lineáris osztályozást akkor használják, ha nagy számú jellemzővel van dolgunk, míg a nem lineáris osztályozót akkor, ha az adatok nem lineárisan szeparálhatók.
- Logisztikus regresszió:
Ez egy osztályozási technika, amelyet arra használnak, hogy megjósolják egy új megfigyelés adott kategóriába tartozásának valószínűségét. Néhány példa: e-mail spam, csalásfelismerés, online tranzakciós csalások stb.
Előírásos elemzés
A fő fókuszterület a jelenlegi adatforgatókönyvhöz a legjobb megoldás megtalálása. A prediktív elemzés mellett a preskriptív elemzés ajánlásokat ad arra vonatkozóan, hogy az előre jelzett információkat hogyan lehet felhasználni a jövő befolyásolására. A cél az, hogy az előrejelzés információit felhasználva elemezze, milyen döntéseket kell hozni az előre jelzett eredmény eléréséhez vagy annak megelőzéséhez.
A jó adatelemzés legjobb előfeltétele az adattudósok szoros kapcsolattartása azzal a szakosodott részleggel, ahonnan az elemzendő adatok származnak. A NETZSCH a hőelemzés terén szerzett többéves tapasztalattal és tudással a szakterületén tudja alkalmazni az adattudományi módszereket.
Előnézet
A következő cikkben a gépi tanulás és a mesterséges intelligencia világába szeretnénk bevezetni Önt. Szeretnénk bemutatni az ezzel kapcsolatos alapokat, és ízelítőt adni a Machine Learning módszerekből.
Maradj tehát kíváncsi a Big Data sorozat következő blogcikkére!
References:
- https://www.logility.com/blog/descriptive-predictive-and-prescriptive-analytics-explained/
- https://datasolut.com/was-ist-machine-learning/
- https://entwickler.de/online/development/predictive-analytics-praxis-tipps-579847089.html
- https://medium.com/ml-research-lab/chapter-4-knowledge-from-the-data-and-data-exploration-analysis-99a72379733
- https://medium.com/ml-research-lab/chapter-4-knowledge-from-the-data-and-data-exploration-analysis-99a734792733
- https://www.researchgate.net/post/What_is_the_difference_between_linear_and_nonlinear_classification_techniques
- https://towardsdatascience.com/logistic-regression-detailed-overview-46c4da4303bc