28.04.2020 by Milena Riedl

Dai Big Data ai dati intelligenti

Nel primo articolo della nostra serie sui Big Data, vi abbiamo già dato una prima visione del termine Big Data e abbiamo sottolineato quali vantaggi possono essere generati dall'elaborazione dei dati per la produzione e soprattutto per l'analisi termica. In questo prossimo articolo, vorremmo introdurre il termine Data Science in modo più dettagliato e mostrare alcuni dei suoi metodi più comuni.

Di Michaela Lang & Jigyasa Sakhuja, Data Scientist di NETZSCH Analyzing & Testing

Definizione di scienza dei dati

Come già descritto dal termine Data Science, è la scienza che si occupa di estrarre informazioni preziose dai dati. L'obiettivo è quello di utilizzare queste informazioni per migliorare la qualità e l'efficienza di un processo specifico, o anche per ricavarne nuove conoscenze. Con l'aiuto della scienza dei dati, è possibile scoprire correlazioni che non possono essere facilmente riconosciute. Il settore della scienza dei dati comprende numerose aree di competenza. Oltre alla matematica/statistica e all'informatica, le conoscenze specialistiche svolgono un ruolo molto importante. Soprattutto nell'analisi termica, è necessario comprendere e interpretare correttamente i processi chimici e fisici per non trarre conclusioni errate dalle serie di dati misurati e per utilizzare i giusti metodi di analisi.

In NETZSCH Analyzing & Testing sono disponibili tutte le aree di competenza necessarie, per cui NETZSCH Analyzing & Testing è in grado di applicare i metodi della Data Science nel campo dell'analisi termica.

Nella prossima sezione presenteremo alcuni metodi di analisi dei dati utilizzati nella Data Science.

Tecniche di analisi dei dati

Con una quantità di dati qualitativi large, un data scientist può iniziare il compito principale: trasformare il set di dati in informazioni preziose. Dopo la pre-elaborazione dei dati, può iniziare l'analisi dei dati. Di seguito viene descritto come affrontare questa sfida.

Esplorazione dei dati

Con l'esplorazione dei dati, l'obiettivo è comprendere i dati in modo elementare. È necessario identificare la struttura dei dati ed esaminare la distribuzione dei valori. Con l'Esplorazione dei dati, si vedono innanzitutto le correlazioni tra i dati e si scopre quale sia il metodo migliore da applicare per l'analisi.

Analisi predittiva

È un sottoinsieme della Business Intelligence e della Business Analytics. Durante l'analisi predittiva, i set di dati vengono valutati alla ricerca di modelli per poter prevedere le tendenze e i risultati futuri. Per l'Analisi Predittiva si possono utilizzare diversi metodi. Qui di seguito, vorremmo fornire una breve panoramica di alcune di queste applicazioni:

  • Apprendimento automatico:

È un'applicazione dell'Intelligenza Artificiale che consente al sistema di acquisire automaticamente conoscenze e di migliorarsi in base all'esperienza acquisita nel tempo senza essere programmato manualmente.

I metodi di Machine Learning acquisiscono informazioni dai dati esistenti estraendo modelli in large serie di dati. In generale, le dipendenze vengono riconosciute e apprese dal sistema, chiamato modello di Machine Learning, in modo che il modello possa fare previsioni su eventi o risultati futuri anche con nuovi dati sconosciuti.

  • Regressione lineare/non lineare:

La regressione lineare è uno degli algoritmi più potenti e basilari per l'analisi predittiva. Il suo obiettivo principale è quello di prevedere le variabili, cioè una variabile target basata su una o più variabili indipendenti. Con la Regressione lineare, è possibile identificare una relazione lineare tra una variabile target e una o più variabili predittive con set di dati esistenti, in modo da generare una funzione lineare per descrivere la dipendenza.

Con la Regressione non lineare, invece, si definisce una funzione non lineare per spiegare la relazione tra le variabili.

Con le informazioni sulla relazione nota, è facile fare previsioni con nuovi dati.

  • Classificazione:

La classificazione prevede l'assegnazione dei dati a una categoria specifica. È un metodo di apprendimento automatico classic. I criteri e i modelli per assegnare i dati a una determinata categoria sono stati appresi da dati categoriali esistenti e possono ora essere applicati per classificare correttamente i nuovi dati.

  • Classificazione lineare/non lineare:

La classificazione lineare viene utilizzata quando si ha a che fare con un numero elevato di caratteristiche, mentre un classificatore non lineare viene utilizzato quando i dati non sono linearmente separabili.

  • Regressione logistica:

È una tecnica di classificazione utilizzata per prevedere la probabilità che una nuova osservazione appartenga a una particolare categoria. Alcuni esempi sono lo spam via e-mail, il rilevamento delle frodi, le frodi nelle transazioni online, ecc.

Analisi prescrittiva

L'area di interesse principale è quella di trovare la soluzione migliore per lo scenario attuale dei dati. Oltre all'analisi predittiva, l'analisi prescrittiva fornisce raccomandazioni su come utilizzare le informazioni previste per influenzare il futuro. L'obiettivo è quello di utilizzare le informazioni di previsione per analizzare le decisioni da prendere per ottenere il risultato previsto o per prevenirlo.

Il miglior prerequisito per una buona analisi dei dati è uno stretto scambio tra i data scientist e il reparto specializzato da cui provengono i dati da analizzare. Grazie ad anni di esperienza e conoscenza dell'analisi termica, NETZSCH è in grado di applicare i metodi della Data Science nel proprio settore di competenza.