Pandas Describe: Описательная статистика вашего Dataframe
Last updated
Last updated
В этом руководстве вы узнаете, как использовать метод Pandas describe, который используется для вычисления сводной статистической информации для вашего DataFrame Pandas. По окончании прочтения этого руководства вы научитесь использовать метод Pandas .describe()
для генерации сводной статистики и модифицировать его с помощью различных параметров, чтобы обеспечить получение желаемых результатов.
Понимание ваших данных с помощью статистических сводок является важным первым шагом в вашем разведывательном анализе данных (EDA). Это полезный начальний этап в вашей работе с данными, который открывает возможности для дальнейшего изучения статистики.
Метод Pandas .describe()
предоставляет обобщённые описательные статистики, которые суммируют центральную тенденцию ваших данных, разброс и форму распределения набора данных. Он также предоставляет полезную информацию о пропущенных данных
Быстрый ответ: описание Pandas предоставляет полезную сводную статистику
Оглавление
Если у вас не установлен Seaborn, вы можете установить его с помощью pip или conda. Для установки через pip просто введите pip install seaborn
в ваш терминал
Давайте загрузим образец dataframe, чтобы следовать вместе с ним:
Посмотрев на первые пять записей нашего датафрейма с помощью метода Pandas .head()
, мы видим, что в датафрейме семь столбцов. Некоторые из них числовые, а другие содержат строковые значения. Однако, помимо этого, мы не знаем много о данных в датафрейме, например, о распределении самих данных.
Здесь на помощь приходит метод describe в Pandas! В следующем разделе вы узнаете, как сгенерировать некоторые сводные статистические данные с помощью метода describe в Pandas.
Метод describe библиотеки Pandas — это полезный метод датафрейма, который возвращает описательные и сводные статистические данные. Метод возвращает такие элементы, как:
Количество предметов
Меры рассеивания
Меры центральной тенденции
Процентили данных
Максимальные и минимальные значения
Давайте разберем различные аргументы, доступные в методе .describe()
библиотеки Pandas
percentiles=
[.25, .5, .75]
Процентили, которые необходимо включить в вывод. Значения должны находиться в диапазоне от 0 до 1. Значения должны быть отформатированы в виде массива чисел, подобного списку.
include=
None
Список разрешённых типов данных для включения в результат. Принимается: – «все»: включить все столбцы – список типов данных для включения – Нет: включить все числовые столбцы
exclude=
None
Черный список типов данных для исключения из результата. Принимается: – массив типов данных в виде списка для исключения – None: включить все числовые стол
datetime_is_numeric=
False
Относиться ли к дате и времени как к числовым значениям, что влияет на рассчитываемую статистику для столбца. (Новое в версии v1.1.0)
Посмотрим, что произойдет, если применить метод с параметрами по умолчанию:
Для числовых столбцов датафрейм возвращает ключевые сводные статистики, описанные выше.
Аналогично, если вы хотите описать только один столбец, вы можете применить метод .describe()
к серии Pandas (или столбцу). Давайте посмотрим, как это выглядит:
В следующем разделе вы узнаете, как изменить процентные значения данных, используя параметр percentiles=
.
В описательной статистике перцентиль используется для определения того, сколько значений в ряду меньше данного перцентиля. Например, если мы определяем значение для 75-го перцентиля, это означает, что 75% значений ниже этого значения.
По умолчанию Pandas назначает процентили [.25, .5, .75]
, что означает, что мы получаем значения для 25го, 50го и 75го процентилей
Мы можем передать любой массив чисел, при условии, что все значения находятся в диапазоне от 0 до 1. Посмотрим, как мы можем изменить это, чтобы определить перцентили, а именно 10%, 50% и 90%:
Указав перцентили, мы можем изменить возвращаемые описательные статистики. Это позволяет нам видеть различные распределения данных по нашему датафрейму.
В следующем разделе вы узнаете, как указать типы данных для включаемых столбцов.
По умолчанию метод describe в Pandas будет включать только числовые столбцы. Это связано, в частности, с тем, что только числовые значения могут использоваться для вычисления среднего или процентилей. Аргумент позволяет нам передавать такие значения, как 'all'
, который включает все столбцы. Также возможно передать список различных типов данных для включения. Это может быть полезно, например, когда числовые столбцы закодированы, и вы не хотите их включать.
Давайте посмотрим, как мы можем изменить поведение методов, чтобы включить все столбцы.
Теперь мы видим, что все столбцы включены в вывод метода describe. Мы можем заметить, что теперь это включает различные метрики, такие как unique
и top
.
В версии Pandas 1.1 был введен новый аргумент. Этот аргумент, datetime_isnumeric=
, позволяет обрабатывать значения datetime как числовые, а не как строковые значения.
Загрузим другой фрейм данных, чтобы увидеть, как работает этот аргумент. Мы оставим значение по умолчанию, а затем переключим его на True
и посмотрим, как это изменит ситуацию.
По умолчанию столбец Date не включен. Давайте не будем изменять аргумент datetime_isnumeric=
на True
и посмотрим, как это изменит вывод:
Мы можем заметить, что при обработке значений даты и времени как числовых данных, мы можем получить ключевые статистические данные о них, включая количество, число уникальных элементов и частоту наиболее часто встречающихся значений.
В этом уроке вы узнали, как использовать метод Pandas .describe()
, который является полезным методом для получения обобщенной статистики по вашему датафрейму. Вы узнали, как использовать метод описания для указания определенных процентилей и как включать или исключать столбцы на основе типов данных.
Если вы хотите следовать вместе с уроком по методу describe в Pandas, вы можете скопировать код ниже. Этот код создаст DataFrame на основе библиотеки Seaborn (). Библиотека предоставляет множество наборов данных для различных сценариев. Эти наборы данных доступны через функцию load_dataset()
.
Чтобы узнать больше о методе Pandas describe, .