
28.04.2020 by Milena Riedl
Fra Big Data til Smart Data
I den første artikel i vores Big Data-serie har vi allerede givet dig et første indblik i begrebet Big Data og påpeget, hvilke fordele der kan opnås ved databehandling til produktion og især til termisk analyse. I denne næste artikel vil vi gerne introducere begrebet Data Science mere detaljeret og vise nogle af de almindelige metoder.
Af Michaela Lang & Jigyasa Sakhuja, Data Scientists på NETZSCH Analyzing & Testing
Definition af datavidenskab
Som udtrykket Data Science allerede beskriver, er det den videnskab, der beskæftiger sig med at udtrække værdifuld information fra data. Målet er at bruge disse oplysninger til at forbedre kvaliteten og effektiviteten af en bestemt proces eller endda at få ny indsigt ud af dem. Ved hjælp af datavidenskab er det muligt at afdække sammenhænge, som ikke er lette at genkende. Data Science-domænet omfatter mange forskellige ekspertiseområder. Ud over matematik/statistik og datalogi spiller specialviden en meget vigtig rolle. Især inden for termisk analyse er det nødvendigt at forstå og fortolke de kemiske og fysiske processer korrekt for ikke at drage forkerte konklusioner ud fra målte datasæt og for at bruge de rigtige analysemetoder.
På NETZSCH Analyzing & Testing er alle nødvendige ekspertiseområder tilgængelige, så NETZSCH Analyzing & Testing er med denne fordel i stand til at anvende Data Science-metoder inden for termisk analyse.
I det næste afsnit vil vi gerne præsentere nogle metoder til dataanalyse, der bruges i Data Science.
Teknikker til dataanalyse
Med en large mængde kvalitative data kan en data scientist gå i gang med hovedopgaven - at omdanne datasættet til værdifuld information. Efter forbehandling af data kan dataanalysen begynde. I det følgende beskrives det, hvordan man griber denne udfordring an.
Udforskning af data
Med Data Exploration er målet at forstå data på en grundlæggende måde. Datastrukturen skal identificeres, og fordelingen af værdierne undersøges. Med Data Exploration ser vi først sammenhænge mellem dataene, og det gør os i stand til at finde ud af, hvilken metode der er bedst at anvende til analysen.
Forudsigende analyse
Det er en delmængde af Business Intelligence og Business Analytics. Under prædiktiv analyse evalueres datasættene for at finde mønstre, så man kan forudsige tendenser og fremtidige resultater. Flere metoder kan bruges til prædiktiv analyse. I det følgende vil vi gerne give et kort overblik over nogle af disse anvendelser:
- Maskinlæring:
Det er en anvendelse af kunstig intelligens, som gør det muligt for systemet automatisk at få viden og forbedre sig selv ud fra erfaringerne over tid uden at blive programmeret manuelt.
Maskinlæringsmetoderne skaffer information fra eksisterende data ved at udtrække mønstre i large datasæt. Generelt genkendes og læres afhængigheder af systemet, kaldet Machine Learning-modellen, så modellen kan forudsige fremtidige begivenheder eller resultater, selv med nye ukendte data.
- Lineær/ikke-lineær regression:
Lineær regression er en af de mest kraftfulde og grundlæggende algoritmer til prædiktiv analyse. Dens hovedmål er at forudsige variablerne, dvs. en målvariabel, der er baseret på en eller flere uafhængige variabler. Med lineær regression er det muligt at identificere et lineært forhold mellem en målvariabel og en eller flere prædiktorvariabler med eksisterende datasæt, så der kan genereres en lineær funktion til at beskrive afhængigheden.
I modsætning hertil defineres der med ikke-lineær regression en ikke-lineær funktion til at forklare forholdet mellem variablerne.
Med oplysninger om det kendte forhold er det nemt at lave forudsigelser med nye data.
- Klassifikation:
Klassifikation involverer tildeling af data til en bestemt kategori. Det er en klassisk maskinlæringsmetode. Kriterierne og mønstrene for tildeling af data til en bestemt kategori blev lært ud fra eksisterende kategoriske data og kan nu anvendes til at klassificere nye data korrekt.
- Lineær/ikke-lineær klassifikation:
Lineær klassifikation bruges, når man har at gøre med et stort antal funktioner, mens en ikke-lineær klassifikator bruges, når data ikke kan adskilles lineært.
- Logistisk regression:
Det er en klassifikationsteknik, der bruges til at forudsige sandsynligheden for, at en ny observation tilhører en bestemt kategori. Nogle af eksemplerne er e-mail-spam, afsløring af svindel, svindel med onlinetransaktioner osv.
Præskriptiv analyse
Hovedfokusområdet er at finde den bedste løsning til det aktuelle datascenarie. Ud over den prædiktive analyse giver den præskriptive analyse anbefalinger til, hvordan man kan bruge de forudsagte oplysninger til at påvirke fremtiden. Målet er at bruge forudsigelsesoplysningerne til at analysere, hvilke beslutninger der skal træffes for at få det forudsagte resultat eller for at forhindre det.
Den bedste forudsætning for god dataanalyse er en tæt udveksling mellem dataforskerne og den specialiserede afdeling, hvor de data, der skal analyseres, kommer fra. Med mange års erfaring og viden inden for termisk analyse kan NETZSCH anvende Data Science-metoder inden for sit ekspertiseområde.
Forhåndsvisning
I den næste artikel vil vi gerne introducere dig til en verden af maskinlæring og kunstig intelligens. Vi vil vise dig det grundlæggende om det og give et eksempel på maskinlæringsmetoder.
Så vær nysgerrig efter vores næste blogartikel i Big Data-serien!
Referencer:
- https://www.logility.com/blog/descriptive-predictive-and-prescriptive-analytics-explained/
- https://datasolut.com/was-ist-machine-learning/
- https://entwickler.de/online/development/predictive-analytics-praxis-tipps-579847089.html
- https://medium.com/ml-research-lab/chapter-4-knowledge-from-the-data-and-data-exploration-analysis-99a72379733
- https://medium.com/ml-research-lab/chapter-4-knowledge-from-the-data-and-data-exploration-analysis-99a734792733
- https://www.researchgate.net/post/What_is_the_difference_between_linear_and_nonlinear_classification_techniques
- https://towardsdatascience.com/logistic-regression-detailed-overview-46c4da4303bc