От обработки данных к глубокому обучению: 50 основных терминов машинного обучения и науки о данных

Машинное обучение и наука о данных быстро формируют способы работы и принятия решений в отраслях. По мере того как эти области продолжают расширяться, растет и сопровождающая их терминология. Для новичков или даже опытных профессионалов знание терминологии может оказаться непростой задачей. Эта статья предлагает четкую и организованную шпаргалку по основным терминам машинного обучения и науки о данных. Он создан как краткий справочник для всех, кто хочет понять основные концепции, не теряясь в деталях.

И. Основы и основы

Наука о данных. Извлечение ценной информации из структурированных и неструктурированных данных.
Машинное обучение (ML): компьютеры обучаются на основе данных без явного программирования.
Искусственный интеллект (ИИ): машины, имитирующие когнитивные функции, такие как обучение и решение проблем.
Глубокое обучение: машинное обучение с нейронными сетями, содержащими множество слоев.
Большие данные: чрезвычайно большие наборы данных анализируются с помощью вычислений на предмет закономерностей и тенденций.

II. Типы обучения

6. Обучение с учителем: обучение на основе пар ввода-вывода.

7. Обучение без учителя: поиск закономерностей во входных данных без помеченных выходных данных.

8. Обучение с подкреплением. Обучение посредством действий и вознаграждений в окружающей среде.

9. Обучение с полуконтролем. Для обучения используются как размеченные, так и неразмеченные данные.

10.Трансферное обучение: использование предварительно обученной модели для решения новой аналогичной задачи.

III. Алгоритмы и модели

11. Нейронная сеть: алгоритмы, имитирующие работу человеческого мозга.

12. Случайный лес: несколько деревьев решений для лучшего прогнозирования.

13. Машина опорных векторов (SVM): контролируемый алгоритм машинного обучения, который работает путем определения оптимальной гиперплоскости, разделяющей данные на классы.

14. Градиентный спуск: алгоритм оптимизации для минимизации функции потерь.

15.Кластеризация K-средних: алгоритм разделения данных на K отдельных кластеров.

IV. Оценка и оптимизация

16. Переобучение: модель слишком хорошо работает на обучающих данных и плохо на новых данных.

17. Недостаточное оснащение: модель слишком проста для отражения структуры данных.

18. Компромисс между смещением и дисперсией. Балансировка ошибок, вызванных упрощенными и сложными предположениями.

19. Перекрестная проверка: оценка способности модели к обобщению.

20. Настройка гиперпараметров: поиск оптимальных параметров алгоритма.

В. Обработка и обработка данных

21. Обработка данных: очистка и структурирование необработанных данных.

22. Разработка функций: выбор и преобразование переменных для моделей.

23. Анализ главных компонентов (PCA): акцент на различиях в данных.

24. Визуализация данных: визуальное представление данных.

25. Нормализация: масштабирование входных данных до стандартного диапазона.

VI. Расширенные концепции

26. Регуляризация. Предотвращение переобучения путем наказания сложных моделей.

27. Эпоха: один полный проход обучающих примеров.

28. Пакет: количество обучающих примеров за одну итерацию.

29. Обработка естественного языка (NLP): алгоритмы понимания человеческого языка.

30. Сверточная нейронная сеть (CNN): глубокое обучение для визуальных задач.

VII. Показатели и эффективность

31. Точность. Правильные прогнозы превосходят общие прогнозы.

32. Точность: истинные положительные результаты превосходят прогнозируемые.

33. Вспомните: реальные положительные результаты превосходят фактические положительные.

34. Оценка F1: гармоническое среднее значение точности и полноты.

35. Средняя абсолютная ошибка (MAE): средняя абсолютная ошибка прогноза.

VIII. Инструменты и платформы

36. TensorFlow: мощная платформа машинного обучения с открытым исходным кодом.

37. PyTorch: библиотека машинного обучения с открытым исходным кодом, предлагающая динамический вычислительный график, что позволяет адаптировать его во время выполнения.

38. Scikit-learn: бесплатная библиотека машинного обучения для Python, предоставляющая инструменты для анализа и моделирования данных.

39. Pandas: инструмент анализа и манипулирования данными.

40. Matplotlib: библиотека визуализации для Python.

IX. Специализированные области

41. Анализ временных рядов: метод анализа точек данных, упорядоченных по времени.

42. Обнаружение аномалий: выявление необычных закономерностей.

43. Системы рекомендаций: алгоритмы, предлагающие пользователям товары.

44. Анализ настроений: определение эмоционального тона текстов.

45. Распознавание изображений: идентификация объектов на изображениях.

Х. Будущие тенденции

46. Квантовые вычисления: Использование квантово-механических явлений для вычислений.

47. Периферийный искусственный интеллект. Алгоритмы искусственного интеллекта запускаются локально на аппаратном устройстве.

48. Федеративное обучение: обучение моделей на нескольких устройствах.

49. Объяснимый ИИ (XAI): понимание и интерпретация решений ИИ.

50. Генеративно-состязательные сети (GAN): две нейронные сети, конкурирующие друг с другом.

От обработки данных к глубокому обучению: 50 основных терминов машинного обучения и науки о данных