Как сортировать данные в DataFrame Pandas
Last updated
Last updated
Сортировка данных — это важный метод для лучшего понимания ваших данных. В этой статье вы узнаете, как сортировать данные в DataFrame Pandas с помощью функции .sort_values()
, как выполнять сортировку по возрастанию и убыванию, а также как сортировать по нескольким столбцам.
Возможность сортировки данных открывает перед вами множество возможностей. При работе с более визуальными инструментами, такими как Excel, одной из самых распространённых задач является сортировка данных — она помогает лучше понять структуру и диапазоны значений. Умение выполнять подобную операцию в Pandas даёт доступ к широкому спектру дальнейшего анализа. Начнём!
Содержание
.sort_values()
в PandasМы можем сортировать значения в DataFrame Pandas с помощью метода .sort_values()
. Этот метод предоставляет широкий набор параметров, которые позволяют гибко настраивать способ сортировки данных по вашему усмотрению! Давайте рассмотрим основные параметры и возможности этого метода:
В приведённой ниже таблице пошагово описаны эти параметры, чтобы вы могли понять, как каждый из них влияет на сортировку данных:
by=
строка или список строк
N/A
Имя столбца (или строки) или список имен для сортировки
axis=
0 or 1
0
Ось для сортировки (0 для строк и 1 для столбцов)
ascending=
булевы значения или список булевых значений
True
Сортировать по возрастанию или по убыванию, и может быть разным для каждого переданного столбца
inplace=
boolean
False
Проводить ли операцию на месте или нет
kind=
string
‘quicksort’
Выбор алгоритма сортировки из следующих вариантов:{‘quicksort’, ‘mergesort’, ‘heapsort’, ‘stable’}
na_position=
string
‘last’
Помещать ли отсутствующие значения в первую или последнюю позицию
ignore_index=
boolean
False
Следует ли переименовывать ось индекса или нет
key=
callable
None
Вызываемая функция, применяемая для сортировки данных
В методе .sort_values()
действительно много возможностей для настройки. Однако с помощью всего нескольких параметров можно достичь большого результата. Теперь давайте перейдём к сортировке данных.
Начнём с загрузки примера DataFrame. Набор данных размещен на Github и может быть загружен с помощью метода .read_csv()
. Мы также добавим параметр, который преобразует столбец 'date'
в тип даты (datetime). После загрузки DataFrame выведем первые пять строк с помощью метода .head()
:
Можно видеть, что DataFrame состоит из четырёх столбцов трёх различных типов данных:
'date'
— столбец, описывающий дату продажи (тип datetime)
'gender'
и 'region'
— строковые столбцы
'sales'
— целочисленный столбец, описывающий объём продаж за определённый день
Теперь перейдём к сортировке нашего DataFrame в Pandas с помощью метода .sort_values()
.
Ключевым параметром в методе .sort_values()
является параметр by=
, поскольку он указывает, по какому столбцу или столбцам выполнять сортировку. Параметр принимает либо имя одного столбца в виде строки, либо список имён столбцов в виде списка строк. Начнём с сортировки данных по одному столбцу. Отсортируем данные по столбцу 'sales'
:
Давайте разберём, что мы сделали в этом примере:
Мы создали новый DataFrame под названием sorted
.
Применили к нему метод .sort_values()
, передав всего один столбец для сортировки.
По умолчанию Pandas сортирует данные по возрастанию — это означает, что наименьшие значения будут находиться вверху таблицы. В следующих разделах вы узнаете, как изменить это поведение и выполнить сортировку по убыванию.
Метод .sort_values()
в Pandas позволяет легко выполнять сортировку по нескольким столбцам. В предыдущем примере вы передавали всего один столбец в виде строки. Если же передать список строк, то можно задать приоритеты сортировки — сначала по одному столбцу, затем — внутри него по другому столбцу и так далее. Это позволяет создать иерархию сортировки.
Давайте отсортируем наши данные сначала по столбцу 'region'
, а затем — по столбцу 'sales'
:
Результат выглядит совсем иначе по сравнению с первым примером. Что здесь произошло:
Сначала данные были отсортированы по столбцу 'region'
в алфавитном порядке (от A до Z).
Затем, внутри каждого региона, значения дополнительно отсортированы по столбцу 'sales'
по возрастанию.
Это означает, что сортировка «сбрасывается» при переходе к новому значению внешнего столбца (в данном случае — нового региона).
.sort_values()
в PandasВ предыдущих примерах мы видели, что сортировка по умолчанию выполняется по возрастанию. Мы можем изменить это поведение, воспользовавшись параметром ascending=
. Этот параметр принимает булево значение — True
или False
. По умолчанию установлено значение True
.
Если вы хотите выполнить сортировку по убыванию, просто установите ascending=False
. Давайте попробуем это на практике!
Можно видеть, что данные были отсортированы по столбцу 'sales'
, но в порядке убывания. Это означает, что самые высокие значения оказались в начале таблицы, а затем значения постепенно уменьшаются.
Аналогично тому, как вы передавали список столбцов для сортировки по нескольким полям, вы также можете передать список булевых значений, чтобы задать направление сортировки для каждого из столбцов. Это позволяет, например, отсортировать один столбец по возрастанию, а другой — по убыванию. Давайте рассмотрим это на примере ниже:
Здесь мы передали список булевых значений, чтобы задать разный порядок сортировки для каждого столбца. Конкретно:
Сначала данные были отсортированы по столбцу 'region'
в порядке убывания — то есть в обратном алфавитном порядке.
Затем — по столбцу 'sales'
в порядке возрастания.
Пропущенные значения могут привести к неожиданным результатам при сортировке. К счастью, Pandas предоставляет широкие возможности для контроля их расположения после сортировки. По умолчанию пропущенные значения (NaN
) размещаются в конце отсортированного списка.
Давайте модифицируем наш DataFrame, добавив в него некоторые пропущенные значения, чтобы проверить, как они влияют на сортировку:
С помощью приведённого выше кода мы добавили десять пропущенных значений (NaN
) в наш DataFrame. Теперь мы можем исследовать, как эти значения обрабатываются при сортировке.
Давайте отсортируем DataFrame по столбцу 'sales'
в порядке возрастания и посмотрим, куда попадут строки с пропущенными данными:
Можно видеть, что пропущенные данные оказались внизу отсортированного DataFrame. Это произошло потому, что по умолчанию используется параметр na_position='last'
. Если мы хотим, чтобы пропущенные значения отображались вверху списка, можно передать значение 'first'
для этого параметра. Давайте проверим это на практике:
Одним из моментов, на который вы могли обратить внимание, является то, что в предыдущих примерах отсортированный DataFrame сохранял свои исходные метки индексов. Это не всегда желаемое поведение. Чтобы изменить это, можно воспользоваться параметром ignore_index=
, который по умолчанию установлен в значение False
.
Если установить это значение в True
, Pandas сбросит старые индексы и заменит их новыми, последовательными числами, начиная с 0:
Итоговый DataFrame теперь имеет индекс, начинающийся с 0 и увеличивающийся до длины DataFrame минус один. Это делает структуру данных более чистой и упорядоченной. Однако имейте в виду, что это изменение индекса является постоянным. Если исходный индекс содержал осмысленные данные (например, уникальные идентификаторы или метки), то такой подход может привести к потере важной информации.
Во всех предыдущих примерах вы создавали новый DataFrame в результате сортировки и присваивали результат переменной. Однако Pandas также позволяет выполнять сортировку на месте, то есть без создания нового объекта — при этом изменяется сам исходный DataFrame.
Это можно сделать с помощью параметра inplace=
, который по умолчанию установлен в значение False
. Если установить его в True
, операция будет выполнена прямо в исходном DataFrame. Вот как это выглядит:
Результирующий DataFrame выше был изменён на месте, то есть нам не нужно было повторно присваивать результат новой переменной.
Пришло время проверить, насколько хорошо вы усвоили материал! Ниже приведены несколько вопросов для самопроверки. Решения можно найти, нажав на соответствующий элемент (если предусмотрен интерфейс). Сначала попробуйте решить самостоятельно, а затем сверьтесь с ответами.
В этом руководстве вы научились сортировать данные в DataFrame Pandas с помощью метода .sort_values()
. Для краткого повторения:
Метод .sort_values()
позволяет сортировать DataFrame по одному или нескольким столбцам
По умолчанию сортировка выполняется по возрастанию, а пропущенные значения (NaN
) размещаются в конце
Можно задавать иерархию сортировки, указав несколько столбцов
Параметр ignore_index=True
помогает очистить индексы после сортировки
Сортировку можно выполнять на месте, установив inplace=True
Для дополнительного изучения метода .sort_values()
ознакомьтесь с .