В этой статье мы собираемся получить обученную модель, используя алгоритм, выбранный в предыдущей статье.

Прежде чем продолжить, мы надеемся, что вы рассмотрели наши предыдущие статьи:

Давайте сначала разберемся с термином Машинное обучение:

Позволить конкретным данным научить алгоритм машинного обучения создавать конкретную модель прогнозирования.

Это цель данной статьи, а здесь алгоритм - «Наивный Байес», а данные - «подготовленные данные», которые мы уже выбрали в предыдущих статьях.

Итак, мы собираемся предоставить «подготовленные данные» к «Наивному байесовскому алгоритму», чтобы в конечном итоге получить обученную модель.

И мы собираемся разделить «подготовленные данные» на две части: 70% данных обучения и остальные 30% данных тестирования. Причина в том, что все данные, которые у нас есть, связаны с объектами реального мира, и, следовательно, нам нужна некоторая часть данных, которая будет доступна для тестирования модели, чтобы она могла сделать точный прогноз о том, у кого разовьется диабет.

А в python у нас есть пакет scikit-learn для получения обученной модели:

Мы должны написать следующий код в записной книжке Jupyter для разделения данных:

В приведенном выше коде мы взяли столбцы в наших данных и определили прогнозируемый класс, который имеет два значения: 0 для не диабета и 1 для диабета. Мы определили размер сплит-теста = 0,30 только потому, что нам нужно 30% данных для тестирования, и random_state = 42, потому что для передачи любого числового значения, указывающего, что нам нужно разделить данные.

И чтобы обеспечить раскол:

Теперь у нас есть данные разделены. Запустим код.

df.head ()

Выше мы видим множество нулевых значений для столбцов, таких как толщина, num_preg и инсулин, и они могут повлиять на точность нашей модели. Итак, у нас есть следующие варианты:

  • Не обращайте внимания на значения.
  • Отбросьте наблюдения (строки).
  • Заменить значения (условно).

Но мы выберем последний вариант, потому что мы не можем удалить отсутствующие или нулевые значения, что может сильно повлиять на необходимость. Итак, мы собираемся заменить значения средним из значений этого конкретного столбца, и мы называем эту операцию Imputing, а в Python у нас есть класс Imputer для того же самого.

Наконец, мы достигли последнего шага, чтобы получить обученную модель, импортировав наивный байесовский с помощью python.

В выходных данных выше у нас есть обученная модель, которую мы протестируем в следующей статье и, наконец, будем использовать ее для прогнозирования.

Если вы нашли эту статью, нажмите кнопку аплодисментов и поделитесь ею с другими.