В этой части — I статьи «Статистика для науки о данных» были рассмотрены следующие темы —
- Описательная статистика
- Выводная статистика
- Методы выборки
- Переменные
Что такое статистика?
Это наука о сборе, организации и анализе данных. Данные — это «факты или фрагменты информации».
Типы статистики?
Существует два типа статистики.
1) Описательная статистика
2) Логическая статистика
1) Описательная статистика —
В Описательной статистике мы пытаемся упорядочить и обобщить наши данные, используя различные графики, например — линейчатую диаграмму, круговую диаграмму, гистограмму, коробчатую диаграмму, точечную диаграмму и т. д.
В описательной статистике мы можем задать/ответить на следующие вопросы/ответы? (Может быть и больше)
Q1) Каков средний рост учеников в классе?
Q2) Какова связь между возрастом и весом? многое другое…
2) Логическая статистика -
В Инференциальной статистике мы собираем выборку данных и пытаемся сделать вывод о населении с помощью какого-нибудь Эксперимента, например — Exit Poll во время выборов.
Мы можем сделать вывод, выполнив проверку гипотез.
Давайте разберемся с выводной статистикой на примере реальной жизни.
Допустим, есть университет с 500 студентами, и мы берем выборку 60 студентов из 500 студентов, чтобы узнать средний возраст студентов в университете.
Таким образом, поток будет следующим: Университет (500 студентов) — → Выборка данных (60 студентов) — → Рассчитать средний возраст студентов — → Проверка гипотез
В логической статистике мы можем задать/ответить на следующий вопрос/ответ? (Может быть и больше)
Q1) Является ли средний вес студентов в классе меньше/больше/равен весу возраста студентов в университете?
Q2) Являются ли средние оценки девушек в университете выше/ниже, чем у юношей?
Методы отбора проб -
Существует четыре типа методов выборки:
- Простая случайная выборка
- Стратифицированная выборка
- Систематическая выборка
- Удобная выборка
1) Простая случайная выборка
В простой случайной выборке мы выбираем членов нашей выборки случайным образом, независимо от пола, возраста, местности, стандарта и т. д.…
Каждый член совокупности (N) имеет равные шансы попасть в вашу выборку (n).
Пример — Случайная выборка для экзит-поллов, опрос независимо от пола и возраста.
2) Стратифицированная выборка
Давайте сначала разберемся со стратифицированными словами, так что это поможет понять эту технику.
Слои — → означает Слои — → Кластеры
Мы группируем наше население по уважению, скажем, по полу, а затем делаем выборку.
Пол -
я) мужчина
ii) Женский
Степень образования -
я) средняя школа
ii) Выпускник
III) Мастер
IV ) доктор философии
Группа крови -
A+, B+, O+, B-
3) Систематическая выборка —
АЭРОПОРТ — —› КРЕДИТНАЯ КАРТА — → Появляется каждый 5-й или Каждый 9-й появляется
Выбор каждой n-й особи из популяции.
4 ) Удобная выборка —
Участвовать будут только те, кто заинтересован в опросе.
Пример -
Люди «X» заинтересованы в опросе по науке о данных, мы отправим опрос только этим людям.
Время викторины –
1 ) Опрос о новых технологиях?
Ответ — удобная выборка (заинтересованы только некоторые группы людей)
2) Опрос RBI для женщин, чтобы узнать расходы на домашнее хозяйство?
Ответ — Стратифицированная выборка — —› Случайная выборка — —› Замужние женщины
3 ) Звонки по кредитной карте?
Ответ — стратифицированная выборка (обычно целевой аудиторией является наемный работник) — —> случайная выборка
Переменная
Что такое переменная?
Это свойство, которое может принимать любое значение/переменную.
Например, с помощью переменных мы придаем ему значение, например, имя и возраст, которые могут принимать любое значение.
Переменные — это набор переменных
Пример — возраст = {24, 45, 32, 18, 20}
В основном есть два типа переменных, и эта переменная также имеет несколько типов.
1) Количественная переменная
i) Дискретная переменная
Целое число
Пример — 1) Количество банковских счетов
2) Количество детей
Это должно быть целое/ дискретное число, мы не можем сказать, что у него 1,5 счета в банке или 2,2 ребенка.
ii) Непрерывные переменные
Непрерывный означает, что переменная имеет десятичные разряды.
Пример -
1) Высота
2) Вес
3) Осадки
Эта переменная может иметь непрерывные значения, например, количество осадков равно 4,40000 MM.
2) Качественная переменная/категориальная переменная
1) Количественная переменная -
В количественной переменной мы измеряем нашу переменную численно (математическая операция).
Пример — возраст, вес, осадки, температура, расстояние
2) Качественная переменная -
В качественной переменной мы создаем группу на основе некоторых характеристик / качества.
Пример — пол, группа крови, виды цветов.
Время викторины (переменная) –
1) Какой переменной является семейное положение?
Ans — Категориальная переменная
2 ) Какая переменная длина реки Ганг?
Ответ — непрерывная переменная
3 ) Что за переменная продолжительность фильма?
Ответ — непрерывная переменная
4 ) Что за переменный Pincode?
Ans — Дискретная переменная
5 ) Что за переменная Пол?
Ans — Категориальная переменная