tgoop.com/CScience1/2584
Last Update:
Data mining - это процесс извлечения полезных информационных образцов из больших наборов данных, который включает в себя методы из статистики, искусственного интеллекта и машинного обучения. Основная цель data mining заключается в превращении необработанных данных в полезную информацию и получении новых знаний из больших объемов данных.
Некоторые из множества инструментов для реализации процессов data mining:
RapidMiner (ранее YALE)
Это мощная система для выполнения различных задач data mining и machine learning. Она поддерживает все этапы аналитики данных: от подготовки и предобработки данных до визуализации результатов.
WEKA (Waikato Environment for Knowledge Analysis)
WEKA предоставляет набор алгоритмов машинного обучения для задач data mining. Эти алгоритмы могут быть применены непосредственно к данным через интерфейс программы или вызваны из собственного Java-кода.
Orange
Это компонентный инструмент для data mining и машинного обучения. Он предназначен для новичков и экспертов и работает с виджетами, которые можно перетаскивать, чтобы создавать потоки данных.
Tableau
Это инструмент визуализации данных, который часто используется для business intelligence и аналитики данных, но также можно использовать и для data mining. Он позволяет пользователям создавать комплексные графики и интерактивные дашборды.
SQL Server Integration Services (SSIS) с SQL Server Analysis Services (SSAS)
Решения от Microsoft являются частью набора инструментов Microsoft SQL Server и предоставляют возможности ETL (Extract, Transform, Load) и OLAP (Online Analytical Processing), соответственно, которые можно использовать для data mining задач.
Python и его библиотеки (Pandas, NumPy, SciPy, Scikit-learn, Matplotlib)
Python является одним из ведущих языков программирования для data science и машинного обучения с множеством библиотек, позволяющих проводить данных анализ, включая предобработку данных, статистический анализ, моделирование и создание предсказательных моделей.
Apache Spark и его MLlib
Spark предназначен для анализа больших данных и может выполнять data mining задачи в большом масштабе. MLlib - это библиотека машинного обучения, которая включена в Spark.
SAS (Statistical Analysis System)
SAS предлагает широкий спектр статистических функций и имеет мощные возможности для data mining, при этом он часто используется в корпоративной среде.
BY Computer Science
Share with your friend now:
tgoop.com/CScience1/2584