В этой статье мы увидим, как всего за несколько минут построить модель машинного обучения с помощью популярной библиотеки Python scikit-learn.
Предположим, у вас есть набор данных о покупателях торгового центра. Набор данных содержит информацию о возрасте, поле, доходе и оценке расходов каждого клиента. Оценка расходов рассчитывается на основе прошлых моделей расходов клиента. Вы хотите создать модель машинного обучения, которая может предсказать оценку расходов клиента с учетом его возраста, пола и дохода.
Чтобы решить эту проблему, вы можете использовать алгоритм обучения с учителем, такой как линейная регрессия или множественная линейная регрессия. Вы можете использовать возраст, пол и доход клиентов в качестве характеристик, а показатель расходов — в качестве целевой переменной. Затем вы можете обучить модель на наборе данных и использовать ее для прогнозирования оценки расходов нового клиента.
Итак, возьмите блокнот Jupyter (вы можете создать его с помощью VS Code) и давайте пройдемся по шагам:
- Установите необходимые библиотеки:
%pip install pandas %pip install sklearn
2. Импортируйте необходимые библиотеки, такие как numpy
и pandas
для обработки данных и scikit-learn
для построения модели:
import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression
3. Загрузите набор данных. Это можно сделать с помощью pandas
или любой другой библиотеки по вашему выбору:
df = pd.read_csv("customer_data.csv")
4. Разделите данные на функции (X) и целевую переменную (y). Функции (X) представляют собой независимые переменные, которые используются для прогнозирования, а целевая переменная (y) представляет собой зависимую переменную, которую мы пытаемся предсказать.
X = df[['age', 'gender', 'income']] y = df['spending_score']
5. Разделите данные на обучающую и тестовую выборки. Это делается для оценки производительности модели на невидимых данных:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
6. Выберите подходящую модель машинного обучения и обучите ее на обучающих данных. В этом случае мы будем использовать модель линейной регрессии:
model = LinearRegression()
7. Обучите модель на обучающих данных:
model.fit(X_train, y_train)
8. Оцените модель на тестовых данных. Это даст нам представление о том, насколько хорошо модель работает с невидимыми данными:
score = model.score(X_test, y_test) print("Test score: ", score)
9. И, наконец, начните делать прогнозы по новым данным:
new_data = [[30, 0, 50000]] # age 30, male, income 50000 prediction = model.predict(new_data) print("Prediction: ", prediction)
Поздравляем, вы успешно построили и обучили модель машинного обучения с помощью scikit-learn менее чем за 5 минут! Вы можете использовать эту модель для прогнозирования новых данных и тонкой настройки ее производительности, настраивая параметры модели или пробуя различные алгоритмы.
Если вы хотите узнать больше о машинном обучении и scikit-learn, обязательно ознакомьтесь с ресурсами, доступными в мой профиль на github. Немного попрактиковавшись, вы сможете создавать модели машинного обучения в кратчайшие сроки!
Спасибо за прочтение. Дайте мне знать, если вы нашли это полезным.