
28.04.2020 by Milena Riedl
Från Big Data till Smart Data
I den första artikeln i vår Big Data-serie har vi redan gett dig en första inblick i begreppet Big Data och pekat på vilka fördelar som kan genereras genom databehandling för produktion och särskilt för termisk analys. I nästa artikel vill vi presentera begreppet Data Science mer i detalj och visa några av dess vanliga metoder.
Av Michaela Lang & Jigyasa Sakhuja, Data Scientists på NETZSCH Analyzing & Testing
Definition av datavetenskap
Som termen Data Science redan beskriver är det den vetenskap som handlar om att utvinna värdefull information ur data. Målet är att använda denna information för att förbättra kvaliteten och effektiviteten i en viss process, eller till och med för att få nya insikter ur den. Med hjälp av Data Science är det möjligt att upptäcka korrelationer som inte är lätta att känna igen. Datavetenskapens domän omfattar många olika kompetensområden. Förutom matematik/statistik och datavetenskap spelar specialistkunskaper en mycket viktig roll. Särskilt inom termisk analys är det nödvändigt att förstå och tolka de kemiska och fysiska processerna korrekt för att inte dra felaktiga slutsatser från uppmätta dataset och för att använda rätt analysmetoder.
På NETZSCH Analyzing & Testing finns alla nödvändiga kompetensområden tillgängliga, så att NETZSCH Analyzing & Testing med denna fördel kan tillämpa Data Science-metoder inom området termisk analys.
I nästa avsnitt presenterar vi några metoder för dataanalys som används inom Data Science.
Tekniker för dataanalys
Med en mängd kvalitativa data från large kan en datavetare påbörja sin huvuduppgift - att omvandla datamängden till värdefull information. Efter förbehandling av data kan dataanalysen påbörjas. I det följande beskrivs hur man tar sig an denna utmaning.
Utforskning av data
Med Data Exploration är målet att förstå data på ett grundläggande sätt. Datastrukturen måste identifieras och fördelningen av värdena undersöks. Med Data Exploration ser vi de första korrelationerna mellan data, och det gör det möjligt för oss att ta reda på vilken metod som är bäst att använda för analysen.
Prediktiv analys
Det är en delmängd av Business Intelligence och Business Analytics. Under prediktiv analys utvärderas datamängderna för att hitta mönster som kan användas för att förutsäga trender och framtida resultat. Det finns flera metoder som kan användas för prediktiv analys. I det följande vill vi ge en kort översikt över några av dessa tillämpningar:
- Maskininlärning:
Det är en tillämpning av artificiell intelligens som gör det möjligt för systemet att automatiskt skaffa sig kunskap och förbättra sig utifrån erfarenheterna över tid utan att programmeras manuellt.
Metoderna för maskininlärning inhämtar information från befintliga data genom att extrahera mönster i large datamängder. I allmänhet känns beroenden igen och lärs in av systemet, som kallas Machine Learning-modellen, så att förutsägelser om framtida händelser eller resultat kan göras av modellen även med nya okända data.
- Linjär / icke-linjär regression:
Linjär regression är en av de mest kraftfulla och grundläggande algoritmerna för prediktiv analys. Dess huvudsyfte är att förutsäga variablerna, dvs. en målvariabel som baseras på en eller flera oberoende variabler. Med linjär regression är det möjligt att Identify ett linjärt förhållande mellan en målvariabel och en eller flera prediktorvariabler med befintliga datauppsättningar så att en linjär funktion kan genereras för att beskriva beroendet.
Vid icke-linjär regression definieras däremot en icke-linjär funktion för att förklara förhållandet mellan variablerna.
Med information om det kända förhållandet är det lätt att göra förutsägelser med nya data.
- Klassificering:
Klassificering innebär att data hänförs till en viss kategori. Det är en klassisk maskininlärningsmetod. Kriterierna och mönstret för att tilldela data till en viss kategori har lärt sig från befintliga kategoriska data och kan nu tillämpas för att klassificera nya data korrekt.
- Linjär/icke-linjär klassificering:
Linjär klassificering används när du hanterar ett stort antal funktioner, medan en icke-linjär klassificerare används när data inte är linjärt separerbara.
- Logistisk regression:
Det är en klassificeringsteknik som används för att förutsäga sannolikheten för att en ny observation tillhör en viss kategori. Några av exemplen är skräppost, bedrägeridetektering, bedrägerier med onlinetransaktioner etc.
Preskriptiv analys
Det huvudsakliga fokusområdet är att hitta den bästa lösningen för det aktuella datascenariot. Utöver den prediktiva analysen ger den normativa analysen rekommendationer om hur den förutsagda informationen kan användas för att påverka framtiden. Målet är att använda förutsägelseinformationen för att analysera vilka beslut som måste fattas för att få det förutsedda resultatet eller för att förhindra det.
Den bästa förutsättningen för bra dataanalys är ett nära utbyte mellan datavetarna och den specialistavdelning där de data som ska analyseras kommer ifrån. Med många års erfarenhet och kunskap inom termisk analys kan NETZSCH tillämpa Data Science-metoder inom sitt expertområde.
Förhandsgranskning
I nästa artikel vill vi introducera dig till världen av maskininlärning och artificiell intelligens. Vi vill visa dig grunderna och ge dig ett urval av metoder för maskininlärning.
Så håll dig nyfiken på vår nästa bloggartikel i Big Data-serien!
Referenser:
- https://www.logility.com/blog/descriptive-predictive-and-prescriptive-analytics-explained/
- https://datasolut.com/was-ist-machine-learning/
- https://entwickler.de/online/development/predictive-analytics-praxis-tipps-579847089.html
- https://medium.com/ml-research-lab/chapter-4-knowledge-from-the-data-and-data-exploration-analysis-99a72379733
- https://medium.com/ml-research-lab/chapter-4-knowledge-from-the-data-and-data-exploration-analysis-99a734792733
- https://www.researchgate.net/post/What_is_the_difference_between_linear_and_nonlinear_classification_techniques
- https://towardsdatascience.com/logistic-regression-detailed-overview-46c4da4303bc