На нашем сайте вы можете читать онлайн «Data Science для новичков». Эта электронная книга доступна бесплатно и представляет собой целую полную версию без сокращений. Кроме того, доступна возможность слушать аудиокнигу, скачать её через торрент в формате fb2 или ознакомиться с кратким содержанием. Жанр книги — Знания и навыки, Учебная и научная литература, Прочая образовательная литература. Кроме того, ниже доступно описание произведения, предисловие и отзывы читателей. Регулярные обновления библиотеки и улучшения функционала делают наше сообщество идеальным местом для любителей книг.
Data Science для новичков

Автор
Дата выхода
12 июля 2023
Краткое содержание книги Data Science для новичков, аннотация автора и описание
Прежде чем читать книгу целиком, ознакомьтесь с предисловием, аннотацией, описанием или кратким содержанием к произведению Data Science для новичков. Предисловие указано в том виде, в котором его написал автор (Руслан Назаров) в своем труде. Если нужная информация отсутствует, оставьте комментарий, и мы постараемся найти её для вас. Обратите внимание: Читатели могут делиться своими отзывами и обсуждениями, что поможет вам глубже понять книгу. Не забудьте и вы оставить свое впечатие о книге в комментариях внизу страницы.
Описание книги
Книга для тех, кто хочет разобраться в искусственном интеллекте, и даже заработать на этом. Основные сведения по статистике, программированию и нейронным сетям. И все это объяснется просто. Дополнительные сведения по языку Python позволят научиться программированию. Книга пригодится всем, кто учится программированию, Data Science, нейронным сетям.
Data Science для новичков читать онлайн полную книгу - весь текст целиком бесплатно
Перед вами текст книги, разбитый на страницы для удобства чтения. Благодаря системе сохранения последней прочитанной страницы, вы можете бесплатно читать онлайн книгу Data Science для новичков без необходимости искать место, на котором остановились. А еще, у нас можно настроить шрифт и фон для комфортного чтения. Наслаждайтесь любимыми книгами в любое время и в любом месте.
Текст книги
Гистограмма показывает:
1) центральную характеристику данных;
2) масштаб данных;
3) скошенность;
4) наличие выбросов;
5) наличие нескольких мод в данных.
Трансформация данных к нормальному распределению объясняется в 6.5.2. What to do when data are non-normal (https://www.itl.nist.gov/div898/handbook/pmc/section5/pmc52.htm (https://www.itl.nist.gov/div898/handbook/pmc/section5/pmc52.htm))
Выбросы
В учебнике для инженеров дано следующее определение выбросов:
«Выбросы – это точки данных, которые получены не из того же распределения, из которого получена основная масса данных».
То есть выброс – это такое значение, которое пришло не из того распределения, из которого пришли основные данные. В этом смысл того, чтобы определить распределение для большинства данных, а затем уже выброс. Редкие данные возможны и в границах распределения для основных данных, но вот выброс выходит вообще за границы распределения, то есть например за пределы колокола в нормальном распределении.
Вот рекомендации по обработке выбросов из учебника для инженеров:
1. К каждому выбросу необходимо относиться серьезно. Не рекомендуется автоматически удалять выбросы. Наличие выбросов может быть не просто ошибкой в данных, выбросы могут сообщать важную информацию о данных. Поэтому надо постараться объяснить, чем вызваны выбросы в данных.
2. Если гистограмма показывает наличие выбросов, то рекомендуется следующее:
1) применить ящик с усами, который лучше гистограммы показывает наличие и количество выбросов;
2) применить Grubbs’ Test или иные тесты для обнаружения выбросов.
Рекомендуемые тесты на выбросы:
1) Grubbs’ Test – если тест на единичный выброс;
2) Tietjen-Moore Test – в случае, если в данных предполагается более одного выброса. Необходимо заранее знать точное количество выбросов.
3) Generalized Extreme Studentized Deviate (ESD) Test – также, если в данных более одного выброса.
Как правило, при обнаружении выбросов исходят из того, что данные распределены нормально. Если это не так, то можно привести данные к нормальному распределению.
Это – ящики с усами. Их придумал отец-основатель анализа данных Тьюки.











