
28.04.2020 by Milena Riedl
От големи данни към интелигентни данни
В първата статия от нашата поредица за големите данни вече ви запознахме с термина "големи данни" и посочихме какви ползи може да донесе обработката на данни за производството и особено за термичния анализ. В тази следваща статия бихме искали да представим по-подробно термина Data Science и да покажем някои от най-разпространените му методи.
By Michaela Lang & Jigyasa Sakhuja, Data Scientists at NETZSCH Analyzing & Testing
Определение за наука за данните
Както вече е описано в термина Data Science, това е наука, която се занимава с извличането на ценна информация от данни. Целта е тази информация да се използва за подобряване на качеството и ефективността на определен процес или дори за получаване на нови прозрения от него. С помощта на науката за данните е възможно да се открият взаимовръзки, които не могат да бъдат лесно разпознати. Областта на науката за данните включва множество различни области на експертни познания. Освен математиката/статистиката и компютърните науки, много важна роля играят и специализираните знания. Особено при термичния анализ е необходимо да се разберат и интерпретират правилно химичните и физичните процеси, за да не се правят погрешни заключения от измерените набори от данни и да се използват правилните методи за анализ.
В NETZSCH Analyzing & Testing са налични всички необходими области на експертни познания, така че с това предимство NETZSCH Analyzing & Testing е в състояние да прилага методите на Data Science в областта на термичния анализ.
В следващия раздел бихме искали да представим някои методи за анализ на данни, които се използват в Data Science.
Техники за анализ на данни
С large количество качествени данни ученият по данните може да започне основната задача - да превърне набора от данни в ценна информация. След предварителната обработка на данните може да се пристъпи към техния анализ. По-долу е описано как да се подходи към това предизвикателство.
Проучване на данни
При проучването на данни целта е да се разберат данните по основен начин. Трябва да се определи структурата на данните и да се изследва разпределението на стойностите. С Изследване на данни първо се виждат взаимовръзките между данните и това ни дава възможност да разберем кой метод е най-добре да приложим за анализа.
Прогнозен анализ
Той е подмножество на Business Intelligence и Business Analytics. По време на прогнозния анализ наборите от данни се оценяват за закономерности, за да могат да се прогнозират тенденции и бъдещи резултати. Няколко метода могат да се използват за прогнозен анализ. По-долу бихме искали да направим кратък преглед на някои от тези приложения:
- Машинно обучение:
Това е приложение на изкуствения интелект, което позволява на системата автоматично да придобива знания и да се подобрява от опита с течение на времето, без да бъде програмирана ръчно.
Методите за машинно обучение придобиват информация от съществуващи данни чрез извличане на модели в large набори от данни. Като цяло зависимостите се разпознават и научават от системата, наречена модел за машинно обучение, така че моделът да може да прави прогнози за бъдещи събития или резултати дори при нови неизвестни данни.
- Линейна/нелинейна регресия:
Линейната регресия е един от най-мощните и основни алгоритми за прогностичен анализ. Неговата основна цел е да се предскажат променливите, т.е. целева променлива, която се основава на една или повече независими променливи. С линейната регресия е възможно да се идентифицира линейна зависимост между целевата променлива и една или повече прогнозни променливи със съществуващи набори от данни, така че да може да се генерира линейна функция, която да описва зависимостта.
За разлика от това, при нелинейната регресия се дефинира нелинейна функция, за да се обясни зависимостта между променливите.
С информацията за известната зависимост е лесно да се правят прогнози с нови данни.
- Класификация:
Класификацията включва отнасянето на данните към определена категория. Това е класически метод за машинно обучение. Критериите и моделът за причисляване на данните към определена категория са научени от съществуващи категорични данни и сега могат да бъдат приложени за правилно класифициране на нови данни.
- Линейна/нелинейна класификация:
Линейна класификация се използва, когато имате работа с голям брой признаци, докато нелинейният класификатор се използва, когато данните не са линейно разделени.
- Логистична регресия:
Това е техника за класификация, която се използва за прогнозиране на вероятността ново наблюдение да принадлежи към определена категория. Някои от примерите са спам по електронната поща, откриване на измами, измами при онлайн транзакции и др.
Предписателен анализ
Основната област на внимание е намирането на най-доброто решение за настоящия сценарий с данни. В допълнение към Прогнозния анализ, Предписващият анализ предоставя препоръки за това как да се използва прогнозираната информация, за да се повлияе на бъдещето. Целта е да се използва информацията от прогнозирането, за да се анализира какви решения трябва да се вземат, за да се получи прогнозираният резултат или да се предотврати той.
Най-добрата предпоставка за добър анализ на данни е тесният обмен на специалистите по данни със специализирания отдел, откъдето идват данните, които трябва да бъдат анализирани. С дългогодишния си опит и познания в областта на термичния анализ NETZSCH може да прилага методите на науката за данните в своята област на компетентност.
Преглед
В следващата статия бихме искали да ви запознаем със света на машинното обучение и изкуствения интелект. Искаме да ви покажем основите за него и да дадем примерни методи за машинно обучение.
Така че останете любопитни за следващата ни статия от поредицата за големите данни!
Препратки:
- https://www.logility.com/blog/descriptive-predictive-and-prescriptive-analytics-explained/
- https://datasolut.com/was-ist-machine-learning/
- https://entwickler.de/online/development/predictive-analytics-praxis-tipps-579847089.html
- https://medium.com/ml-research-lab/chapter-4-knowledge-from-the-data-and-data-exploration-analysis-99a72379733
- https://medium.com/ml-research-lab/chapter-4-knowledge-from-the-data-and-data-exploration-analysis-99a734792733
- https://www.researchgate.net/post/What_is_the_difference_between_linear_and_nonlinear_classification_techniques
- https://towardsdatascience.com/logistic-regression-detailed-overview-46c4da4303bc