
28.04.2020 by Milena Riedl
De la Big Data la Smart Data
În primul articol din seria noastră Big Data, v-am oferit deja o primă perspectivă asupra termenului Big Data și am arătat care sunt beneficiile care pot fi generate de prelucrarea datelor pentru producție și în special pentru analiza termică. În următorul articol, am dori să prezentăm mai detaliat termenul Data Science și să arătăm câteva dintre metodele sale comune.
De Michaela Lang & Jigyasa Sakhuja, Data Scientists la NETZSCH Analyzing & Testing
Definiția științei datelor
După cum descrie deja termenul Data Science, aceasta este știința care se ocupă cu extragerea informațiilor valoroase din date. Scopul este de a utiliza aceste informații pentru a îmbunătăți calitatea și eficiența unui anumit proces sau chiar pentru a obține noi informații din acestea. Cu ajutorul științei datelor, este posibil să se descopere corelații care nu pot fi recunoscute cu ușurință. Domeniul științei datelor cuprinde numeroase domenii diferite de expertiză. Pe lângă matematică / statistică și informatică, cunoștințele de specialitate joacă un rol foarte important. În special în analiza termică, este necesar să se înțeleagă și să se interpreteze corect procesele chimice și fizice pentru a nu trage concluzii greșite din seturile de date măsurate și pentru a utiliza metodele corecte de analiză.
La NETZSCH Analyzing & Testing sunt disponibile toate domeniile de expertiză necesare, astfel încât, cu acest avantaj, NETZSCH Analyzing & Testing este capabil să aplice metodele Data Science în domeniul analizei termice.
În secțiunea următoare, dorim să prezentăm câteva metode de analiză a datelor care sunt utilizate în Data Science.
Tehnici de analiză a datelor
Cu o cantitate large de date calitative, un cercetător de date poate începe sarcina principală - transformarea setului de date în informații valoroase. După preprocesarea datelor, analiza datelor poate începe. În cele ce urmează, este descris modul de abordare a acestei provocări.
Explorarea datelor
Cu Explorarea datelor, obiectivul este de a înțelege datele într-un mod elementar. Structura datelor trebuie să fie identificată și distribuția valorilor este examinată. Cu ajutorul explorării datelor, vedem mai întâi corelațiile dintre date și ne permite să aflăm care este cea mai bună metodă de aplicat pentru analiză.
Analiză predictivă
Este un subset al Business Intelligence și al Business Analytics. În timpul analizei predictive, seturile de date sunt evaluate în funcție de modele pentru a putea prezice tendințele și rezultatele viitoare. Mai multe metode pot fi utilizate pentru analiza predictivă. În cele ce urmează, am dori să oferim o scurtă prezentare a unora dintre aceste aplicații:
- Învățarea automată:
Este o aplicație a inteligenței artificiale, care permite sistemului să dobândească în mod automat cunoștințe și să se îmbunătățească din experiență în timp, fără a fi programat manual.
Metodele de învățare automată dobândesc informații din datele existente prin extragerea modelelor din seturile de date large. În general, dependențele sunt recunoscute și învățate de sistem, denumit model de învățare automată, astfel încât modelul poate face predicții cu privire la evenimente sau rezultate viitoare chiar și cu date noi necunoscute.
- Regresia liniară/ne-lineară:
Regresia liniară este unul dintre cei mai puternici și de bază algoritmi pentru analiza predictivă. Scopul său principal este de a prezice variabilele, adică o variabilă țintă care se bazează pe una sau mai multe variabile independente. Cu Regresia liniară, este posibil să se identifice o relație liniară între o variabilă țintă și una sau mai multe variabile predictoare cu seturi de date existente, astfel încât să poată fi generată o funcție liniară pentru a descrie dependența.
În schimb, în cazul regresiei neliniare, se definește o funcție neliniară pentru a explica relația dintre variabile.
Cu informațiile despre relația cunoscută, este ușor să se facă predicții cu date noi.
- Clasificare:
Clasificarea presupune atribuirea datelor la o anumită categorie. Este o metodă clasică de învățare automată. Criteriile și modelul de atribuire a datelor la o anumită categorie au fost învățate din datele categoriale existente și pot fi acum aplicate pentru a clasifica corect datele noi.
- Clasificarea liniară/non-liniară:
Clasificarea liniară este utilizată atunci când aveți de-a face cu un număr mare de caracteristici, în timp ce un clasificator neliniar este utilizat atunci când datele nu sunt liniar separabile.
- Regresia logistică:
Este o tehnică de clasificare utilizată pentru a prezice probabilitatea ca o nouă observație să aparțină unei anumite categorii. Unele dintre exemple sunt spam-ul prin e-mail, detectarea fraudelor, fraudele în tranzacțiile online etc.
Analiza prescriptivă
Obiectivul principal este de a găsi cea mai bună soluție pentru scenariul actual al datelor. În plus față de analiza predictivă, analiza prescriptivă oferă recomandări cu privire la modul de utilizare a informațiilor prezise pentru a influența viitorul. Scopul este de a utiliza informațiile de predicție pentru a analiza ce decizii trebuie luate pentru a obține rezultatul prezis sau pentru a-l preveni.
Cea mai bună condiție prealabilă pentru o bună analiză a datelor este un schimb strâns al cercetătorilor de date cu departamentul de specialitate de unde provin datele care urmează să fie analizate. Cu ani de experiență și cunoștințe în analiza termică, NETZSCH poate aplica metodele Data Science în domeniul său de expertiză.
Previzualizare
În articolul următor, dorim să vă introducem în lumea învățării automate și a inteligenței artificiale. Vrem să vă arătăm elementele de bază despre aceasta și să vă oferim un exemplu de metode de învățare automată.
Așadar, rămâneți curioși cu privire la următorul nostru articol de blog din seria Big Data!
Referințe:
- https://www.logility.com/blog/descriptive-predictive-and-prescriptive-analytics-explained/
- https://datasolut.com/was-ist-machine-learning/
- https://entwickler.de/online/development/predictive-analytics-praxis-tipps-579847089.html
- https://medium.com/ml-research-lab/chapter-4-knowledge-from-the-data-and-data-exploration-analysis-99a72379733
- https://medium.com/ml-research-lab/chapter-4-knowledge-from-the-data-and-data-exploration-analysis-99a734792733
- https://www.researchgate.net/post/What_is_the_difference_between_linear_and_nonlinear_classification_techniques
- https://towardsdatascience.com/logistic-regression-detailed-overview-46c4da4303bc