Топ-5 ошибок начинающих специалистов по анализу данных

Когда я изучал основы науки о данных за несколько месяцев до моего иммерсивного курса по науке о данных на Генеральной Ассамблее, я сделал много ошибок новичков. Некоторые из них дикие, поэтому большинство из вас их не сделает (я надеюсь), но некоторые не так очевидны, поэтому я подумал, что поделюсь своим опытом с ошибками новичков, чтобы вы могли их избежать. Я должен был написать этот блог некоторое время назад, но лучше поздно, чем никогда.

Ошибка 1. Инициализация репозиториев Git в корневом каталоге

Давным-давно я инициализировал репозиторий git в вашей корневой папке. Не делай этого! Это поместит все на вашем компьютере в одно огромное хранилище. Вы поймете, что что-то не так, когда попытаетесь отправить свой код на GitHub. Все сразу перестанет работать. Всегда убедитесь, что вы изменили каталог («cd») на соответствующую папку перед инициализацией репозитория git. Вы можете удалить репо, но это может сбивать с толку, если вы не знаете, что вы инициализировали репо все, что они находятся в вашем корневом каталоге.

Ошибка 2 - удаление неправильных каталогов из терминала

Если изображение выше вас совсем немного не пугает. Вы, наверное, не знаете, что это значит. `rm -rf` - очень удобная команда терминала. Это тоже очень опасная команда. Что он позволяет вам сделать, так это удалить все файлы в данном каталоге. `rm` означает удаление, а` -r` указывает ему работать рекурсивно. Наконец, «-f» указывает ему игнорировать все и никогда ничего не запрашивать. Это означает, что вы можете удалить операционную систему со своего компьютера с помощью этой команды, и она даже не спросит вас, уверены ли вы. Хотя я никогда не делал ничего настолько глупого, я удалил не те репозитории git; эти репо давно растворились в эфире.

Ошибка 3 - запуск Jupyter Notebook

После того, как вы правильно установили Anaconda, вы можете запустить Jupyter, просто набрав Jupyter Notebook в своем терминале. Мне потребовалось больше времени, чем я осмеливаюсь признаться, чтобы понять это.

Когда я впервые начал использовать Jupyter, я импортировал все свои записные книжки Jupyter в свою корневую папку. Я не знал, что могу перейти в папку в папку, а затем запустить Jupyter. Вместо этого вам следует перейти в каталог, в котором находятся все ваши записные книжки, и активировать там Jupyter.

Ошибка 4. Неправильное чтение CSV

До Data Science я никогда не использовал терминал на своем компьютере, поэтому я не знал, как перемещаться по каталогам в целом. Это привело меня к некоторым проблемам с загрузкой в Pandas DataFrames. Если ваш набор данных находится не в том же каталоге, что и Jupyter Notebook, вы не сможете читать в своем CSV-файле, просто введя имя набора данных.

Например, предположим, что у вас все записные книжки находятся в папке с именем «code», а все ваши наборы данных - в папке с именем «data». В этом случае вы должны прочитать свои данные CSV, написав

dataframe = pd.read_csv( ‘../data/csv_name.scv’ )

Две точки позволяют перемещаться по каталогу назад. Если бы вы были в терминале, вы могли бы набрать `cd ..` для перехода, например, со своего рабочего стола в корневой каталог. В качестве альтернативы вы могли бы сделать то же, что и я.

Вы можете загрузить свои CSV-файлы на GitHub. Из GitHub вы можете скопировать ссылку CSV и вставить ее прямо в записную книжку, чтобы считывать данные из Интернета. Это был мой подход, пока я не понял, как работают каталоги.

Ошибка 5 - неверная интерпретация результатов R2.

В Data Science мы используем оценку R2 для измерения производительности многих наших моделей. Мы также разбиваем наши данные на наборы для обучения и тестирования, чтобы увидеть, как наша модель работает с данными, которых она никогда раньше не видела. Я обманул себя, думая, что результат R2 - это конец всему. На самом деле характеристики вашей модели могут отличаться от реальных. Потеряв свое место в топ-15 и переместившись примерно на 50-е место в конкурсе Kaggle, я понял, что то, как ваша модель работает на вашем локальном компьютере, не очень хороший показатель того, как она может работать в реальном мире. При оценке модели используйте несколько показателей и помните, что результаты могут отличаться.