Как сортировать данные в DataFrame Pandas

Сортировка данных — это важный метод для лучшего понимания ваших данных. В этой статье вы узнаете, как сортировать данные в DataFrame Pandas с помощью функции .sort_values(), как выполнять сортировку по возрастанию и убыванию, а также как сортировать по нескольким столбцам.

Возможность сортировки данных открывает перед вами множество возможностей. При работе с более визуальными инструментами, такими как Excel, одной из самых распространённых задач является сортировка данных — она помогает лучше понять структуру и диапазоны значений. Умение выполнять подобную операцию в Pandas даёт доступ к широкому спектру дальнейшего анализа. Начнём!

Содержание

Обзор метода .sort_values() в Pandas

Мы можем сортировать значения в DataFrame Pandas с помощью метода .sort_values(). Этот метод предоставляет широкий набор параметров, которые позволяют гибко настраивать способ сортировки данных по вашему усмотрению! Давайте рассмотрим основные параметры и возможности этого метода:

df.sort_values(
    by = [],
    axis = 0, 
    ascending = True, 
    inplace = False, 
    kind = 'quicksort', 
    na_position = 'last', 
    ignore_index = False, 
    key = None
)

В приведённой ниже таблице пошагово описаны эти параметры, чтобы вы могли понять, как каждый из них влияет на сортировку данных:

Параметр
Тип ввода
Значение по умолчанию
Описание

by=

строка или список строк

N/A

Имя столбца (или строки) или список имен для сортировки

axis=

0 or 1

0

Ось для сортировки (0 для строк и 1 для столбцов)

ascending=

булевы значения или список булевых значений

True

Сортировать по возрастанию или по убыванию, и может быть разным для каждого переданного столбца

inplace=

boolean

False

Проводить ли операцию на месте или нет

kind=

string

‘quicksort’

Выбор алгоритма сортировки из следующих вариантов:{‘quicksort’, ‘mergesort’, ‘heapsort’, ‘stable’}

na_position=

string

‘last’

Помещать ли отсутствующие значения в первую или последнюю позицию

ignore_index=

boolean

False

Следует ли переименовывать ось индекса или нет

key=

callable

None

Вызываемая функция, применяемая для сортировки данных

В методе .sort_values() действительно много возможностей для настройки. Однако с помощью всего нескольких параметров можно достичь большого результата. Теперь давайте перейдём к сортировке данных.

Загрузка примера DataFrame Pandas

Начнём с загрузки примера DataFrame. Набор данных размещен на Github и может быть загружен с помощью метода .read_csv(). Мы также добавим параметр, который преобразует столбец 'date' в тип даты (datetime). После загрузки DataFrame выведем первые пять строк с помощью метода .head():

Можно видеть, что DataFrame состоит из четырёх столбцов трёх различных типов данных:

  • 'date' — столбец, описывающий дату продажи (тип datetime)

  • 'gender' и 'region' — строковые столбцы

  • 'sales' — целочисленный столбец, описывающий объём продаж за определённый день

Теперь перейдём к сортировке нашего DataFrame в Pandas с помощью метода .sort_values().

Сортировка по одному столбцу DataFrame

Ключевым параметром в методе .sort_values() является параметр by=, поскольку он указывает, по какому столбцу или столбцам выполнять сортировку. Параметр принимает либо имя одного столбца в виде строки, либо список имён столбцов в виде списка строк. Начнём с сортировки данных по одному столбцу. Отсортируем данные по столбцу 'sales':

Давайте разберём, что мы сделали в этом примере:

  • Мы создали новый DataFrame под названием sorted.

  • Применили к нему метод .sort_values(), передав всего один столбец для сортировки.

По умолчанию Pandas сортирует данные по возрастанию — это означает, что наименьшие значения будут находиться вверху таблицы. В следующих разделах вы узнаете, как изменить это поведение и выполнить сортировку по убыванию.

Сортировка по нескольким столбцам DataFrame

Метод .sort_values() в Pandas позволяет легко выполнять сортировку по нескольким столбцам. В предыдущем примере вы передавали всего один столбец в виде строки. Если же передать список строк, то можно задать приоритеты сортировки — сначала по одному столбцу, затем — внутри него по другому столбцу и так далее. Это позволяет создать иерархию сортировки.

Давайте отсортируем наши данные сначала по столбцу 'region', а затем — по столбцу 'sales':

Результат выглядит совсем иначе по сравнению с первым примером. Что здесь произошло:

  • Сначала данные были отсортированы по столбцу 'region' в алфавитном порядке (от A до Z).

  • Затем, внутри каждого региона, значения дополнительно отсортированы по столбцу 'sales' по возрастанию.

  • Это означает, что сортировка «сбрасывается» при переходе к новому значению внешнего столбца (в данном случае — нового региона).

Изменение порядка сортировки в .sort_values() в Pandas

В предыдущих примерах мы видели, что сортировка по умолчанию выполняется по возрастанию. Мы можем изменить это поведение, воспользовавшись параметром ascending=. Этот параметр принимает булево значение — True или False. По умолчанию установлено значение True.

Если вы хотите выполнить сортировку по убыванию, просто установите ascending=False. Давайте попробуем это на практике!

Можно видеть, что данные были отсортированы по столбцу 'sales', но в порядке убывания. Это означает, что самые высокие значения оказались в начале таблицы, а затем значения постепенно уменьшаются.

Изменение порядка сортировки для нескольких столбцов DataFrame

Аналогично тому, как вы передавали список столбцов для сортировки по нескольким полям, вы также можете передать список булевых значений, чтобы задать направление сортировки для каждого из столбцов. Это позволяет, например, отсортировать один столбец по возрастанию, а другой — по убыванию. Давайте рассмотрим это на примере ниже:

Здесь мы передали список булевых значений, чтобы задать разный порядок сортировки для каждого столбца. Конкретно:

  • Сначала данные были отсортированы по столбцу 'region' в порядке убывания — то есть в обратном алфавитном порядке.

  • Затем — по столбцу 'sales' в порядке возрастания.

Сортировка с пропущенными значениями в DataFrame Pandas

Пропущенные значения могут привести к неожиданным результатам при сортировке. К счастью, Pandas предоставляет широкие возможности для контроля их расположения после сортировки. По умолчанию пропущенные значения (NaN) размещаются в конце отсортированного списка.

Давайте модифицируем наш DataFrame, добавив в него некоторые пропущенные значения, чтобы проверить, как они влияют на сортировку:

С помощью приведённого выше кода мы добавили десять пропущенных значений (NaN) в наш DataFrame. Теперь мы можем исследовать, как эти значения обрабатываются при сортировке.

Давайте отсортируем DataFrame по столбцу 'sales' в порядке возрастания и посмотрим, куда попадут строки с пропущенными данными:

Можно видеть, что пропущенные данные оказались внизу отсортированного DataFrame. Это произошло потому, что по умолчанию используется параметр na_position='last'. Если мы хотим, чтобы пропущенные значения отображались вверху списка, можно передать значение 'first' для этого параметра. Давайте проверим это на практике:

Сброс индекса после сортировки DataFrame в Pandas

Одним из моментов, на который вы могли обратить внимание, является то, что в предыдущих примерах отсортированный DataFrame сохранял свои исходные метки индексов. Это не всегда желаемое поведение. Чтобы изменить это, можно воспользоваться параметром ignore_index=, который по умолчанию установлен в значение False.

Если установить это значение в True, Pandas сбросит старые индексы и заменит их новыми, последовательными числами, начиная с 0:

Итоговый DataFrame теперь имеет индекс, начинающийся с 0 и увеличивающийся до длины DataFrame минус один. Это делает структуру данных более чистой и упорядоченной. Однако имейте в виду, что это изменение индекса является постоянным. Если исходный индекс содержал осмысленные данные (например, уникальные идентификаторы или метки), то такой подход может привести к потере важной информации.

Сортировка DataFrame Pandas на месте (in-place)

Во всех предыдущих примерах вы создавали новый DataFrame в результате сортировки и присваивали результат переменной. Однако Pandas также позволяет выполнять сортировку на месте, то есть без создания нового объекта — при этом изменяется сам исходный DataFrame.

Это можно сделать с помощью параметра inplace=, который по умолчанию установлен в значение False. Если установить его в True, операция будет выполнена прямо в исходном DataFrame. Вот как это выглядит:

Результирующий DataFrame выше был изменён на месте, то есть нам не нужно было повторно присваивать результат новой переменной.


Упражнения

Пришло время проверить, насколько хорошо вы усвоили материал! Ниже приведены несколько вопросов для самопроверки. Решения можно найти, нажав на соответствующий элемент (если предусмотрен интерфейс). Сначала попробуйте решить самостоятельно, а затем сверьтесь с ответами.

Отсортируйте DataFrame сначала по столбцу 'gender', а затем по столбцу 'region', оба — в порядке убывания.

Ответ:

Что произойдёт, если использовать следующий код:

Ответ: Будет вызвано исключение ValueError, поскольку количество значений в списке ascending не совпадает с количеством столбцов, переданных в параметре by.

Как с помощью сортировки получить второе по величине значение продаж (sales) среди всех регионов?

Ответ: Можно комбинировать .sort_values() с .iloc:



Заключение и повторение материала

В этом руководстве вы научились сортировать данные в DataFrame Pandas с помощью метода .sort_values(). Для краткого повторения:

  • Метод .sort_values() позволяет сортировать DataFrame по одному или нескольким столбцам

  • По умолчанию сортировка выполняется по возрастанию, а пропущенные значения (NaN) размещаются в конце

  • Можно задавать иерархию сортировки, указав несколько столбцов

  • Параметр ignore_index=True помогает очистить индексы после сортировки

  • Сортировку можно выполнять на месте, установив inplace=True

Для дополнительного изучения метода .sort_values() ознакомьтесь с официальной документацией.

Последнее обновление