
28.04.2020 by Milena Riedl
Van Big Data naar Smart Data
In het eerste artikel van onze Big Data serie hebben we je al een eerste inzicht gegeven in de term Big Data en hebben we aangegeven welke voordelen gegevensverwerking kan opleveren voor productie en vooral voor thermische analyse. In dit volgende artikel willen we de term Data Science in meer detail introduceren en een aantal veelgebruikte methoden laten zien.
Door Michaela Lang & Jigyasa Sakhuja, Data Scientists bij NETZSCH Analyzing & Testing
Definitie van gegevenswetenschap
Zoals de term Data Science al aangeeft, is het de wetenschap die zich bezighoudt met het extraheren van waardevolle informatie uit gegevens. Het doel is om deze informatie te gebruiken om de kwaliteit en efficiëntie van een specifiek proces te verbeteren, of zelfs om er nieuwe inzichten uit te halen. Met behulp van Data Science is het mogelijk om correlaties bloot te leggen die niet eenvoudig te herkennen zijn. Het domein van Data Science omvat veel verschillende expertisegebieden. Naast de wiskundige/statistische en computerwetenschappen speelt specialistische kennis een zeer belangrijke rol. Vooral bij thermische analyse is het noodzakelijk om de chemische en fysische processen correct te begrijpen en te interpreteren om geen verkeerde conclusies te trekken uit gemeten datasets en om de juiste analysemethoden te gebruiken.
Bij NETZSCH Analyzing & Testing zijn alle benodigde expertisegebieden aanwezig, zodat NETZSCH Analyzing & Testing met dit voordeel in staat is om Data Science-methoden toe te passen op het gebied van thermische analyse.
In het volgende gedeelte willen we enkele methoden voor gegevensanalyse presenteren die worden gebruikt in Data Science.
Technieken voor gegevensanalyse
Met een large hoeveelheid kwalitatieve gegevens kan een datawetenschapper beginnen met de hoofdtaak - het omzetten van de dataset in waardevolle informatie. Na het voorbewerken van de gegevens kan de gegevensanalyse beginnen. Hieronder wordt beschreven hoe deze uitdaging kan worden aangepakt.
Gegevensverkenning
Met Data Exploration is het doel om de gegevens op een elementaire manier te begrijpen. De structuur van de gegevens moet worden geïdentificeerd en de verdeling van de waarden wordt onderzocht. Met Data Exploration zien we eerst correlaties tussen de gegevens en kunnen we uitzoeken welke methode het beste kan worden toegepast voor de analyse.
Voorspellende analyse
Het is een subset van Business Intelligence en Business Analytics. Bij voorspellende analyse worden de datasets geëvalueerd op patronen om trends en toekomstige resultaten te kunnen voorspellen. Er kunnen verschillende methoden worden gebruikt voor voorspellende analyse. Hieronder geven we een kort overzicht van enkele van deze toepassingen:
- Machine Learning:
Het is een toepassing van Kunstmatige Intelligentie, die het systeem in staat stelt om automatisch kennis op te doen en zichzelf in de loop van de tijd te verbeteren op basis van de opgedane ervaring, zonder dat het handmatig geprogrammeerd hoeft te worden.
De Machine Learning methoden verwerven informatie uit bestaande gegevens door patronen te extraheren in large datasets. In het algemeen worden afhankelijkheden herkend en geleerd door het systeem, dat het Machine Learning-model wordt genoemd, zodat het model voorspellingen kan doen over toekomstige gebeurtenissen of uitkomsten, zelfs met nieuwe onbekende gegevens.
- Lineaire/niet-lineaire regressie:
Lineaire regressie is een van de krachtigste en meest elementaire algoritmen voor voorspellende analyse. Het belangrijkste doel is om de variabelen te voorspellen, d.w.z. een doelvariabele die is gebaseerd op een of meer onafhankelijke variabelen. Met lineaire regressie is het mogelijk om Identify een lineair verband te leggen tussen een doelvariabele en een of meer voorspellende variabelen met bestaande gegevenssets, zodat een lineaire functie kan worden gegenereerd om de afhankelijkheid te beschrijven.
Bij niet-lineaire regressie daarentegen wordt een niet-lineaire functie gedefinieerd om de relatie tussen de variabelen te verklaren.
Met de informatie over de bekende relatie is het eenvoudig om voorspellingen te doen met nieuwe gegevens.
- Classificatie:
Bij Classificatie worden gegevens toegewezen aan een specifieke categorie. Het is een klassieke methode voor machinaal leren. De criteria en het patroon voor het toewijzen van gegevens aan een bepaalde categorie werden geleerd van bestaande categorische gegevens en kunnen nu worden toegepast om nieuwe gegevens correct te classificeren.
- Lineair/Niet-lineair Classificeren:
Lineaire classificatie wordt gebruikt wanneer je te maken hebt met een groot aantal kenmerken, terwijl een niet-lineaire classificator wordt gebruikt wanneer de gegevens niet lineair scheidbaar zijn.
- Logistische regressie:
Het is een classificatietechniek die wordt gebruikt om de waarschijnlijkheid te voorspellen dat een nieuwe observatie tot een bepaalde categorie behoort. Enkele voorbeelden zijn e-mailspam, fraudedetectie, fraude met online transacties, enz.
Voorschrijvende analyse
Het belangrijkste aandachtsgebied is het vinden van de beste oplossing voor het huidige gegevensscenario. Naast de voorspellende analyse geeft de prescriptieve analyse aanbevelingen over hoe de voorspelde informatie kan worden gebruikt om de toekomst te beïnvloeden. Het doel is om de voorspellende informatie te gebruiken om te analyseren welke beslissingen genomen moeten worden om het voorspelde resultaat te behalen of om het te voorkomen.
De beste voorwaarde voor een goede gegevensanalyse is een nauwe uitwisseling tussen de gegevenswetenschappers en de gespecialiseerde afdeling waar de te analyseren gegevens vandaan komen. Met jarenlange ervaring en kennis op het gebied van thermische analyse kan NETZSCH Data Science methoden toepassen in zijn vakgebied.
Voorbeeld
In het volgende artikel willen we je introduceren in de wereld van Machine Learning en Kunstmatige Intelligentie. We willen je de basis laten zien en een voorbeeld geven van Machine Learning methoden.
Blijf dus nieuwsgierig naar ons volgende blogartikel in de Big Data serie!
Referenties:
- https://www.logility.com/blog/descriptive-predictive-and-prescriptive-analytics-explained/
- https://datasolut.com/was-ist-machine-learning/
- https://entwickler.de/online/development/predictive-analytics-praxis-tipps-579847089.html
- https://medium.com/ml-research-lab/hoofdstuk-4-kennis-van-de-data-en-data-exploratie-analyse-99a72379733
- https://medium.com/ml-research-lab/hoofdstuk-4-kennis-van-de-data-en-data-exploratie-analyse-99a734792733
- https://www.researchgate.net/post/What_is_the_difference_between_linear_and_nonlinear_classification_techniques
- https://towardsdatascience.com/logistic-regression-detailed-overview-46c4da4303bc