Как сортировать данные в DataFrame Pandas

Сортировка данных — это важный метод для лучшего понимания ваших данных. В этой статье вы узнаете, как сортировать данные в DataFrame Pandas с помощью функции .sort_values(), как выполнять сортировку по возрастанию и убыванию, а также как сортировать по нескольким столбцам.

Возможность сортировки данных открывает перед вами множество возможностей. При работе с более визуальными инструментами, такими как Excel, одной из самых распространённых задач является сортировка данных — она помогает лучше понять структуру и диапазоны значений. Умение выполнять подобную операцию в Pandas даёт доступ к широкому спектру дальнейшего анализа. Начнём!

Содержание

Обзор метода `.sort_values()` в Pandas

Мы можем сортировать значения в DataFrame Pandas с помощью метода .sort_values(). Этот метод предоставляет широкий набор параметров, которые позволяют гибко настраивать способ сортировки данных по вашему усмотрению! Давайте рассмотрим основные параметры и возможности этого метода:

df.sort_values(
    by = [],
    axis = 0, 
    ascending = True, 
    inplace = False, 
    kind = 'quicksort', 
    na_position = 'last', 
    ignore_index = False, 
    key = None
)

В приведённой ниже таблице пошагово описаны эти параметры, чтобы вы могли понять, как каждый из них влияет на сортировку данных:

Параметр

Тип ввода

Значение по умолчанию

Описание

by=

строка или список строк

N/A

Имя столбца (или строки) или список имен для сортировки

axis=

0 or 1

Ось для сортировки (0 для строк и 1 для столбцов)

ascending=

булевы значения или список булевых значений

True

Сортировать по возрастанию или по убыванию, и может быть разным для каждого переданного столбца

inplace=

boolean

False

Проводить ли операцию на месте или нет

kind=

string

‘quicksort’

Выбор алгоритма сортировки из следующих вариантов:{‘quicksort’, ‘mergesort’, ‘heapsort’, ‘stable’}

na_position=

string

‘last’

Помещать ли отсутствующие значения в первую или последнюю позицию

ignore_index=

boolean

False

Следует ли переименовывать ось индекса или нет

key=

callable

None

Вызываемая функция, применяемая для сортировки данных

В методе .sort_values() действительно много возможностей для настройки. Однако с помощью всего нескольких параметров можно достичь большого результата. Теперь давайте перейдём к сортировке данных.

Загрузка примера DataFrame Pandas

Начнём с загрузки примера DataFrame. Набор данных размещен на Github и может быть загружен с помощью метода .read_csv(). Мы также добавим параметр, который преобразует столбец 'date' в тип даты (datetime). После загрузки DataFrame выведем первые пять строк с помощью метода .head():

# Загрузка примера Pandas DataFrame

import pandas as pd

# Загрузка CSV-файла по URL и преобразование столбца 'date' в формат даты
df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

print(df.head())

# Возвращает:
#         date  gender      region  sales
# 0 2022-08-22    Male  North-West  20381
# 1 2022-03-05    Male  North-East  14495
# 2 2022-02-09    Male  North-East  13510
# 3 2022-06-22    Male  North-East  15983
# 4 2022-08-10  Female  North-West  15007

Можно видеть, что DataFrame состоит из четырёх столбцов трёх различных типов данных:

'date' — столбец, описывающий дату продажи (тип datetime)
'gender' и 'region' — строковые столбцы
'sales' — целочисленный столбец, описывающий объём продаж за определённый день

Теперь перейдём к сортировке нашего DataFrame в Pandas с помощью метода .sort_values().

Сортировка по одному столбцу DataFrame

Ключевым параметром в методе .sort_values() является параметр by=, поскольку он указывает, по какому столбцу или столбцам выполнять сортировку. Параметр принимает либо имя одного столбца в виде строки, либо список имён столбцов в виде списка строк. Начнём с сортировки данных по одному столбцу. Отсортируем данные по столбцу 'sales':

# Сортировка Pandas DataFrame по одному столбцу

# Предполагается, что DataFrame 'df' уже загружен из предыдущего примера
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Сортировка DataFrame по столбцу 'sales' в порядке возрастания (по умолчанию)
sorted = df.sort_values(by='sales')

print(sorted.head())

# Возвращает:
#           date  gender      region  sales
# 251 2022-10-20    Male  North-West   6084
# 346 2022-05-06  Female  North-West   6403
# 489 2022-07-01  Female  North-West   6824
# 463 2022-09-12  Female  North-West   7432
# 890 2022-10-02    Male  North-West   7633

Давайте разберём, что мы сделали в этом примере:

Мы создали новый DataFrame под названием sorted.
Применили к нему метод .sort_values(), передав всего один столбец для сортировки.

По умолчанию Pandas сортирует данные по возрастанию — это означает, что наименьшие значения будут находиться вверху таблицы. В следующих разделах вы узнаете, как изменить это поведение и выполнить сортировку по убыванию.

Сортировка по нескольким столбцам DataFrame

Метод .sort_values() в Pandas позволяет легко выполнять сортировку по нескольким столбцам. В предыдущем примере вы передавали всего один столбец в виде строки. Если же передать список строк, то можно задать приоритеты сортировки — сначала по одному столбцу, затем — внутри него по другому столбцу и так далее. Это позволяет создать иерархию сортировки.

Давайте отсортируем наши данные сначала по столбцу 'region', а затем — по столбцу 'sales':

# Сортировка Pandas DataFrame по нескольким столбцам

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Сортировка DataFrame сначала по столбцу 'region', затем по 'sales'
sorted = df.sort_values(by=['region', 'sales'])

print(sorted.head())

# Возвращает:
#           date  gender      region  sales
# 850 2022-07-26  Female  North-East  11664
# 770 2022-05-27    Male  North-East  12009
# 434 2022-11-28  Female  North-East  12353
# 76  2022-11-14  Female  North-East  12404
# 478 2022-09-12  Female  North-East  12709

Результат выглядит совсем иначе по сравнению с первым примером. Что здесь произошло:

Сначала данные были отсортированы по столбцу 'region' в алфавитном порядке (от A до Z).
Затем, внутри каждого региона, значения дополнительно отсортированы по столбцу 'sales' по возрастанию.
Это означает, что сортировка «сбрасывается» при переходе к новому значению внешнего столбца (в данном случае — нового региона).

Изменение порядка сортировки в `.sort_values()` в Pandas

В предыдущих примерах мы видели, что сортировка по умолчанию выполняется по возрастанию. Мы можем изменить это поведение, воспользовавшись параметром ascending=. Этот параметр принимает булево значение — True или False. По умолчанию установлено значение True.

Если вы хотите выполнить сортировку по убыванию, просто установите ascending=False. Давайте попробуем это на практике!

# Сортировка значений в убывающем порядке в Pandas

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Сортировка DataFrame по столбцу 'sales' в порядке убывания
sorted = df.sort_values(by='sales', ascending=False)

print(sorted.head())

# Возвращает:
#           date  gender region  sales
# 61  2022-02-22  Female  South  43775
# 673 2022-04-19    Male  South  37878
# 111 2022-10-31  Female  South  36444
# 892 2022-09-05    Male  South  35723
# 136 2022-02-27    Male  South  35485

Можно видеть, что данные были отсортированы по столбцу 'sales', но в порядке убывания. Это означает, что самые высокие значения оказались в начале таблицы, а затем значения постепенно уменьшаются.

Изменение порядка сортировки для нескольких столбцов DataFrame

Аналогично тому, как вы передавали список столбцов для сортировки по нескольким полям, вы также можете передать список булевых значений, чтобы задать направление сортировки для каждого из столбцов. Это позволяет, например, отсортировать один столбец по возрастанию, а другой — по убыванию. Давайте рассмотрим это на примере ниже:

# Изменение порядка сортировки нескольких столбцов

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Сортировка DataFrame сначала по 'region' в убывающем порядке, затем по 'sales' в возрастающем порядке
sorted = df.sort_values(
    by=['region', 'sales'],  # Столбцы для сортировки
    ascending=[False, True]  # Соответствующий порядок сортировки: False для 'region' (убывание), True для 'sales' (возрастание)
)

print(sorted.head())

# Возвращает:
#           date  gender region  sales
# 739 2022-02-28    Male  South  10768
# 460 2022-11-15    Male  South  11567
# 616 2022-11-18  Female  South  12940
# 462 2022-09-28    Male  South  13055
# 213 2022-01-25    Male  South  13230

Здесь мы передали список булевых значений, чтобы задать разный порядок сортировки для каждого столбца. Конкретно:

Сначала данные были отсортированы по столбцу 'region' в порядке убывания — то есть в обратном алфавитном порядке.
Затем — по столбцу 'sales' в порядке возрастания.

Сортировка с пропущенными значениями в DataFrame Pandas

Пропущенные значения могут привести к неожиданным результатам при сортировке. К счастью, Pandas предоставляет широкие возможности для контроля их расположения после сортировки. По умолчанию пропущенные значения (NaN) размещаются в конце отсортированного списка.

Давайте модифицируем наш DataFrame, добавив в него некоторые пропущенные значения, чтобы проверить, как они влияют на сортировку:

# Добавление пропущенных значений в наш DataFrame

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Присвоение значений None (пропущенных значений) столбцу 'sales' для строк с индексами от 10 до 20
df.loc[10:20, 'sales'] = None

С помощью приведённого выше кода мы добавили десять пропущенных значений (NaN) в наш DataFrame. Теперь мы можем исследовать, как эти значения обрабатываются при сортировке.

Давайте отсортируем DataFrame по столбцу 'sales' в порядке возрастания и посмотрим, куда попадут строки с пропущенными данными:

# Понимание порядка сортировки пропущенных данных

# Предполагается, что DataFrame 'df' уже загружен и в него добавлены пропущенные значения
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])
# df.loc[10:20, 'sales'] = None

# Сортировка DataFrame по столбцу 'sales' в порядке возрастания (по умолчанию)
# Обратите внимание, что пропущенные значения (NaN) по умолчанию помещаются в конец
sorted = df.sort_values(
    by='sales',
)

print(sorted)

# Возвращает (показаны первые и последние строки для демонстрации):
#           date  gender      region   sales
# 251 2022-10-20    Male  North-West  6084.0
# 346 2022-05-06  Female  North-West  6403.0
# 489 2022-07-01  Female  North-West  6824.0
# 463 2022-09-12  Female  North-West  7432.0
# 890 2022-10-02    Male  North-West  7633.0
# ..         ...     ...         ...     ...
# 16  2022-04-18    Male  North-West     NaN
# 17  2022-07-30  Female  North-West     NaN
# 18  2022-02-03    Male  North-East     NaN
# 19  2022-01-15    Male  North-East     NaN
# 20  2022-01-21  Female       South     NaN

Можно видеть, что пропущенные данные оказались внизу отсортированного DataFrame. Это произошло потому, что по умолчанию используется параметр na_position='last'. Если мы хотим, чтобы пропущенные значения отображались вверху списка, можно передать значение 'first' для этого параметра. Давайте проверим это на практике:

# Изменение порядка сортировки пропущенных данных

# Предполагается, что DataFrame 'df' уже загружен и в него добавлены пропущенные значения
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])
# df.loc[10:20, 'sales'] = None

# Сортировка DataFrame по столбцу 'sales' с размещением пропущенных значений в начале
sorted = df.sort_values(
    by='sales',
    na_position='first' # Указывает, что NaN должны быть размещены в начале
)

print(sorted)

# Возвращает (показаны первые и последние строки для демонстрации):
#           date  gender      region    sales
# 10  2022-12-21    Male       South      NaN
# 11  2022-04-30  Female  North-West      NaN
# 12  2022-11-25  Female  North-East      NaN
# 13  2022-08-14  Female  North-East      NaN
# 14  2022-02-24  Female  North-East      NaN
# ..         ...     ...         ...      ...
# 136 2022-02-27    Male       South  35485.0
# 892 2022-09-05    Male       South  35723.0
# 111 2022-10-31  Female       South  36444.0
# 673 2022-04-19    Male       South  37878.0
# 61  2022-02-22  Female       South  43775.0

Сброс индекса после сортировки DataFrame в Pandas

Одним из моментов, на который вы могли обратить внимание, является то, что в предыдущих примерах отсортированный DataFrame сохранял свои исходные метки индексов. Это не всегда желаемое поведение. Чтобы изменить это, можно воспользоваться параметром ignore_index=, который по умолчанию установлен в значение False.

Если установить это значение в True, Pandas сбросит старые индексы и заменит их новыми, последовательными числами, начиная с 0:

# Игнорирование индекса при сортировке

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Сортировка DataFrame по столбцу 'sales'
# и сброс индекса таким образом, что он будет начинаться с 0 после сортировки
sorted = df.sort_values(
    by='sales',
    ignore_index=True  # Указывает, что индекс должен быть сброшен
)

print(sorted.head())

# Возвращает:
#         date  gender      region  sales
# 0 2022-10-20    Male  North-West   6084
# 1 2022-05-06  Female  North-West   6403
# 2 2022-07-01  Female  North-West   6824
# 3 2022-09-12  Female  North-West   7432
# 4 2022-10-02    Male  North-West   7633

Итоговый DataFrame теперь имеет индекс, начинающийся с 0 и увеличивающийся до длины DataFrame минус один. Это делает структуру данных более чистой и упорядоченной. Однако имейте в виду, что это изменение индекса является постоянным. Если исходный индекс содержал осмысленные данные (например, уникальные идентификаторы или метки), то такой подход может привести к потере важной информации.

Сортировка DataFrame Pandas на месте (in-place)

Во всех предыдущих примерах вы создавали новый DataFrame в результате сортировки и присваивали результат переменной. Однако Pandas также позволяет выполнять сортировку на месте, то есть без создания нового объекта — при этом изменяется сам исходный DataFrame.

Это можно сделать с помощью параметра inplace=, который по умолчанию установлен в значение False. Если установить его в True, операция будет выполнена прямо в исходном DataFrame. Вот как это выглядит:

# Сортировка DataFrame на месте

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Сортировка DataFrame по столбцу 'sales' с изменением самого DataFrame (на месте)
df.sort_values(
    by='sales',
    inplace=True  # Указывает, что изменения должны быть применены к исходному DataFrame
)

print(df.head())

# Возвращает:
#           date  gender      region  sales
# 251 2022-10-20    Male  North-West   6084
# 346 2022-05-06  Female  North-West   6403
# 489 2022-07-01  Female  North-West   6824
# 463 2022-09-12  Female  North-West   7432
# 890 2022-10-02    Male  North-West   7633

Результирующий DataFrame выше был изменён на месте, то есть нам не нужно было повторно присваивать результат новой переменной.

Упражнения

Пришло время проверить, насколько хорошо вы усвоили материал! Ниже приведены несколько вопросов для самопроверки. Решения можно найти, нажав на соответствующий элемент (если предусмотрен интерфейс). Сначала попробуйте решить самостоятельно, а затем сверьтесь с ответами.

Отсортируйте DataFrame сначала по столбцу 'gender', а затем по столбцу 'region', оба — в порядке убывания.

Ответ:

df.sort_values(by=['gender', 'region'], ascending=[False, False])

Что произойдёт, если использовать следующий код:

df.sort_values(by=['region', 'gender'], ascending=[True, True, False])

Ответ: Будет вызвано исключение ValueError, поскольку количество значений в списке ascending не совпадает с количеством столбцов, переданных в параметре by.

Как с помощью сортировки получить второе по величине значение продаж (sales) среди всех регионов?

Ответ: Можно комбинировать .sort_values() с .iloc:

print(
    df.sort_values(
        by='sales',          # Сортировка по столбцу 'sales'
        ascending=False      # В порядке убывания
    ).iloc[1, 3])            # Получаем вторую строку и четвёртый столбец (индексация начинается с 0)

Заключение и повторение материала

В этом руководстве вы научились сортировать данные в DataFrame Pandas с помощью метода .sort_values(). Для краткого повторения:

Метод .sort_values() позволяет сортировать DataFrame по одному или нескольким столбцам
По умолчанию сортировка выполняется по возрастанию, а пропущенные значения (NaN) размещаются в конце
Можно задавать иерархию сортировки, указав несколько столбцов
Параметр ignore_index=True помогает очистить индексы после сортировки
Сортировку можно выполнять на месте, установив inplace=True

Для дополнительного изучения метода .sort_values() ознакомьтесь с официальной документацией.

PreviousФинансовый год – Определение финансового года в Pandas NextPandas Value_counts для подсчета уникальных значений

Last updated 2 months ago

Обзор метода .sort_values() в Pandas