От обработки данных к глубокому обучению: 50 основных терминов машинного обучения и науки о данных
Машинное обучение и наука о данных быстро формируют способы работы и принятия решений в отраслях. По мере того как эти области продолжают расширяться, растет и сопровождающая их терминология. Для новичков или даже опытных профессионалов знание терминологии может оказаться непростой задачей. Эта статья предлагает четкую и организованную шпаргалку по основным терминам машинного обучения и науки о данных. Он создан как краткий справочник для всех, кто хочет понять основные концепции, не теряясь в деталях.
И. Основы и основы
- Наука о данных. Извлечение ценной информации из структурированных и неструктурированных данных.
- Машинное обучение (ML): компьютеры обучаются на основе данных без явного программирования.
- Искусственный интеллект (ИИ): машины, имитирующие когнитивные функции, такие как обучение и решение проблем.
- Глубокое обучение: машинное обучение с нейронными сетями, содержащими множество слоев.
- Большие данные: чрезвычайно большие наборы данных анализируются с помощью вычислений на предмет закономерностей и тенденций.
II. Типы обучения
6. Обучение с учителем: обучение на основе пар ввода-вывода.
7. Обучение без учителя: поиск закономерностей во входных данных без помеченных выходных данных.
8. Обучение с подкреплением. Обучение посредством действий и вознаграждений в окружающей среде.
9. Обучение с полуконтролем. Для обучения используются как размеченные, так и неразмеченные данные.
10.Трансферное обучение: использование предварительно обученной модели для решения новой аналогичной задачи.
III. Алгоритмы и модели
11. Нейронная сеть: алгоритмы, имитирующие работу человеческого мозга.
12. Случайный лес: несколько деревьев решений для лучшего прогнозирования.
13. Машина опорных векторов (SVM): контролируемый алгоритм машинного обучения, который работает путем определения оптимальной гиперплоскости, разделяющей данные на классы.
14. Градиентный спуск: алгоритм оптимизации для минимизации функции потерь.
15.Кластеризация K-средних: алгоритм разделения данных на K отдельных кластеров.
IV. Оценка и оптимизация
16. Переобучение: модель слишком хорошо работает на обучающих данных и плохо на новых данных.
17. Недостаточное оснащение: модель слишком проста для отражения структуры данных.
18. Компромисс между смещением и дисперсией. Балансировка ошибок, вызванных упрощенными и сложными предположениями.
19. Перекрестная проверка: оценка способности модели к обобщению.
20. Настройка гиперпараметров: поиск оптимальных параметров алгоритма.
В. Обработка и обработка данных
21. Обработка данных: очистка и структурирование необработанных данных.
22. Разработка функций: выбор и преобразование переменных для моделей.
23. Анализ главных компонентов (PCA): акцент на различиях в данных.
24. Визуализация данных: визуальное представление данных.
25. Нормализация: масштабирование входных данных до стандартного диапазона.
VI. Расширенные концепции
26. Регуляризация. Предотвращение переобучения путем наказания сложных моделей.
27. Эпоха: один полный проход обучающих примеров.
28. Пакет: количество обучающих примеров за одну итерацию.
29. Обработка естественного языка (NLP): алгоритмы понимания человеческого языка.
30. Сверточная нейронная сеть (CNN): глубокое обучение для визуальных задач.
VII. Показатели и эффективность
31. Точность. Правильные прогнозы превосходят общие прогнозы.
32. Точность: истинные положительные результаты превосходят прогнозируемые.
33. Вспомните: реальные положительные результаты превосходят фактические положительные.
34. Оценка F1: гармоническое среднее значение точности и полноты.
35. Средняя абсолютная ошибка (MAE): средняя абсолютная ошибка прогноза.
VIII. Инструменты и платформы
36. TensorFlow: мощная платформа машинного обучения с открытым исходным кодом.
37. PyTorch: библиотека машинного обучения с открытым исходным кодом, предлагающая динамический вычислительный график, что позволяет адаптировать его во время выполнения.
38. Scikit-learn: бесплатная библиотека машинного обучения для Python, предоставляющая инструменты для анализа и моделирования данных.
39. Pandas: инструмент анализа и манипулирования данными.
40. Matplotlib: библиотека визуализации для Python.
IX. Специализированные области
41. Анализ временных рядов: метод анализа точек данных, упорядоченных по времени.
42. Обнаружение аномалий: выявление необычных закономерностей.
43. Системы рекомендаций: алгоритмы, предлагающие пользователям товары.
44. Анализ настроений: определение эмоционального тона текстов.
45. Распознавание изображений: идентификация объектов на изображениях.
Х. Будущие тенденции
46. Квантовые вычисления: Использование квантово-механических явлений для вычислений.
47. Периферийный искусственный интеллект. Алгоритмы искусственного интеллекта запускаются локально на аппаратном устройстве.
48. Федеративное обучение: обучение моделей на нескольких устройствах.
49. Объяснимый ИИ (XAI): понимание и интерпретация решений ИИ.
50. Генеративно-состязательные сети (GAN): две нейронные сети, конкурирующие друг с другом.