В этой статье мы увидим, как всего за несколько минут построить модель машинного обучения с помощью популярной библиотеки Python scikit-learn.

Предположим, у вас есть набор данных о покупателях торгового центра. Набор данных содержит информацию о возрасте, поле, доходе и оценке расходов каждого клиента. Оценка расходов рассчитывается на основе прошлых моделей расходов клиента. Вы хотите создать модель машинного обучения, которая может предсказать оценку расходов клиента с учетом его возраста, пола и дохода.

Чтобы решить эту проблему, вы можете использовать алгоритм обучения с учителем, такой как линейная регрессия или множественная линейная регрессия. Вы можете использовать возраст, пол и доход клиентов в качестве характеристик, а показатель расходов — в качестве целевой переменной. Затем вы можете обучить модель на наборе данных и использовать ее для прогнозирования оценки расходов нового клиента.

Итак, возьмите блокнот Jupyter (вы можете создать его с помощью VS Code) и давайте пройдемся по шагам:

  1. Установите необходимые библиотеки:
%pip install pandas
%pip install sklearn

2. Импортируйте необходимые библиотеки, такие как numpy и pandas для обработки данных и scikit-learn для построения модели:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

3. Загрузите набор данных. Это можно сделать с помощью pandas или любой другой библиотеки по вашему выбору:

df = pd.read_csv("customer_data.csv")

4. Разделите данные на функции (X) и целевую переменную (y). Функции (X) представляют собой независимые переменные, которые используются для прогнозирования, а целевая переменная (y) представляет собой зависимую переменную, которую мы пытаемся предсказать.

X = df[['age', 'gender', 'income']]
y = df['spending_score']

5. Разделите данные на обучающую и тестовую выборки. Это делается для оценки производительности модели на невидимых данных:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

6. Выберите подходящую модель машинного обучения и обучите ее на обучающих данных. В этом случае мы будем использовать модель линейной регрессии:

model = LinearRegression()

7. Обучите модель на обучающих данных:

model.fit(X_train, y_train)

8. Оцените модель на тестовых данных. Это даст нам представление о том, насколько хорошо модель работает с невидимыми данными:

score = model.score(X_test, y_test)
print("Test score: ", score)

9. И, наконец, начните делать прогнозы по новым данным:

new_data = [[30, 0, 50000]]  # age 30, male, income 50000
prediction = model.predict(new_data)
print("Prediction: ", prediction)

Поздравляем, вы успешно построили и обучили модель машинного обучения с помощью scikit-learn менее чем за 5 минут! Вы можете использовать эту модель для прогнозирования новых данных и тонкой настройки ее производительности, настраивая параметры модели или пробуя различные алгоритмы.

Если вы хотите узнать больше о машинном обучении и scikit-learn, обязательно ознакомьтесь с ресурсами, доступными в мой профиль на github. Немного попрактиковавшись, вы сможете создавать модели машинного обучения в кратчайшие сроки!

Спасибо за прочтение. Дайте мне знать, если вы нашли это полезным.