Bemind
Учебник Python
Учебник Python
  • Python
    • Python Lists
      • Списковые включения в Python (Полное руководство с примерами)
      • Исправление ValueError: Слишком Много Значений Для Распаковки в Python
      • Как добавить словарь в список в Python
      • Как добавить строку в список в Python
      • Разница между массивами и списками в Python
      • Python: Различия между списками и кортежами
      • Как проверить, пуст ли список в Python
      • Как Итерировать (Циклически Проходить) По Списку в Python
      • Python List sort(): Подробное руководство по сортировке списков
      • Python List Extend: Как добавить несколько элементов в список
      • Python: Найти Индекс Всех Вхождений Элемента в Списке
      • Конвертация списка словарей в Pandas DataFrame
      • Генерация случайных чисел в Python
      • Поиск Индекса в Списке Python: Найти Первое, Последнее или Все Вхождения
      • Добавить в начало списка в Python (Вставить в начало)
      • Найти дубликаты в списке Python
      • Python: Умножение Списков (6 Различных Способов)
      • Python списки: Полный обзор
      • Python: Выбор случайного элемента из списка
      • 4 Способа Очистить Список в Python
      • Объяснение ошибки IndexError в Python: индекс списка выходит за пределы допустимого диапазона
      • Python: Получение индекса максимального элемента в списке
      • Python: Объединение списков – Слияние списков (8 способов)
      • Python: Проверка наличия элемента в списке
      • Python: Проверка наличия элемента в списке
      • Удаление элемента из списка в Python (pop, remove, del, clear)
      • Как перевернуть список в Python (6 способов)
      • Python: Замена элемента в списке (6 различных способов)
      • Python: Удаление дубликатов из списка (7 способов)
      • Python: Преобразование словаря в список кортежей (4 простых способа)
      • Python: Перемешать Список (Случайное Распределение Элементов Списка в Python)
      • Python: Пересечение двух списков
      • Python: Вычитание двух списков (4 простых способа!)
      • Длина или Размер Списка в Python: 5 Способов Узнать Длину Списка
      • Python: Транспонирование списка списков (5 простых способов!)
      • Python: Разделение списка (Пополам, на части)
      • Python: Комбинации списка (Получить все комбинации списка)
      • Python: Выравнивание списка списков (4 способа)
      • Разница между списками в Python: Нахождение разницы между двумя списками Python
      • Python: Найти среднее значение списка или списка списков
      • Как добавлять элементы в списки в Python – 4 простых способа!
      • Списковые включения в Python (Полное руководство с примерами)
      • 6 способов преобразовать список Python в строку
    • Python Dictionaries
      • Понимание словаря Python (с примерами)
      • Исправляем ValueError: Слишком Много Значений Для Распаковки в Python
      • Как добавить словарь в список в Python
      • Преобразование JSON в словарь Python
      • Полное руководство по вложенным словарям в Python
      • Копирование словаря в Python: Полное руководство
      • Конвертация списка словарей в Pandas DataFrame
      • Поиск дубликатов в списке Python
      • Полный обзор словарей в Python
      • Python: Добавление пары Ключ:Значение в Словарь
      • Python: Сортировка словаря по значениям
      • Слияние Словарей в Python – Комбинирование Словарей (7 Способов)
      • Python: Удаление Дубликатов из Списка (7 Способов)
      • Python: Преобразование словаря в список кортежей (4 простых способа)
      • Python: Красивая Печать Словаря (Dictionary) – 4 Способа
      • Python: Проверка пуст ли словарь (5 способов!)
      • Copy of Python: Проверка пуст ли словарь (5 способов!)
      • Python: Проверьте, существует ли ключ (или значение) в словаре (5 простых способов)
      • Python: Проверьте, существует ли ключ (или значение) в словаре (5 простых способов)
      • Python: Получение Ключа Словаря с Максимальным Значением (4 Способа)
      • Python: Удаление ключа из словаря (4 разных способа)
      • Как красиво вывести JSON-файл в Python (6 методов)
    • Python Strings
      • Python Капитализация Строк: Руководство по Преобразованию слов в Заглавные
      • Python strip: Как обрезать строку в Python
      • Python Обратная Строка: Руководство по Реверсированию Строк
      • Как Удалить Префикс или Суффикс из Строки в Python
      • Преобразование строки в формат заголовка в Python с помощью str.title()
      • Как добавить строку в список в Python
      • Python String startswith: Проверка, начинается ли строка с подстроки
      • Python String endswith: Проверка того, заканчивается ли строка подстрокой
      • Как удалить первый или последний символ из строки в Python
      • Как исправить: SyntaxError в Python - EOL при сканировании строкового литерала
      • Python String Contains: Проверка Наличия Подстроки в Строке
      • Как проверить, пустая ли строка в Python
      • Python Новая Строка и Как Печатать Без Переноса Строки
      • Как Конкатенировать Строки в Python: Полное Руководство
      • Python: Подсчет слов в строке или файле
      • Как создать список алфавита в Python
      • Python: Конкатенация строки и целого числа (Int)
      • Python: Сортировка строки (4 различных способа)
      • Python zfill и rjust: Добавление нулей в строку в Python
      • Python: Целое в Двоичное (Преобразование целого числа в двоичную строку)
      • Python rfind: Нахождение индекса последней подстроки в строке
      • Python SHA256 хеширование алгоритм: объяснение
      • Python: Усечение числа с плавающей точкой (6 различных способов)
      • Выбор между методами Python isdigit(), isnumeric() и isdecimal()
      • Python: Удаление специальных символов из строки
      • Python Приведение Строки к Нижнему Регистру с помощью .lower(), .casefold(), и .islower()
      • Python программа для проверки, является ли строка палиндромом (6 методов)
      • Python: Найдите все перестановки строки (3 легких способа!)
      • Python: Удаление пунктуации из строки (3 разных способа!)
      • Python: Найти индекс (или все индексы) подстроки в строке
      • Python: Удаление символов новой строки из строки
      • Python: Удаление символа из строки (4 способа)
      • Python: Количество вхождений в строке (4 способа!)
    • Встроенные функции Python
      • abs()
      • ascii()
      • aiter()
      • all()
      • any()
      • anext()
      • bin()
      • bool()
      • breakpoint()
      • bytearray()
      • bytes()
      • callable()
      • chr()
      • classmethod()
      • compile()
      • complex()
      • delattr()
      • dict()
      • dir()
      • divmod()
      • enumerate()
      • eval()
      • exec()
      • filter()
      • float()
      • format()
      • frozenset()
      • getattr()
      • globals()
      • hasattr()
      • hash()
      • help()
      • hex()
      • id()
      • input()
      • int()
      • issubclass()
      • iter()
      • len()
      • list()
      • locals()
      • map()
      • max()
      • memoryview()
      • min()
      • next()
      • object()
      • oct()
      • open()
      • ord()
      • pow()
      • print()
      • property()
      • range()
      • repr()
      • reversed()
      • round()
      • set()
      • setattr()
      • isinstance()
      • slice()
      • zip()
      • type()
      • sorted()
      • staticmethod()
      • str()
      • sum()
      • super()
      • tuple()
      • vars()
      • import()
    • Cобеседования Python. Разбор реальных вопросов.
    • Встроенные методы в Python
  • Учебники по Pandas и Numpy
    • Numpy
      • Функция активации ReLU для глубокого обучения: полное руководство по выпрямленному линейному блоку
      • Как нормализовать массивы NumPy (минимальное-максимальное масштабирование, Z-оценка, L2)
      • NumPy where: Условная обработка элементов массива
      • NumPy linspace: создание равномерно расположенных массивов с помощью np.linspace
      • Как рассчитать векторное произведение в Python
      • Разделение NumPy: Разделение массива NumPy на части
      • NumPy: Лучшие способы применения функции к массиву
      • NumPy full: Создание массивов с заданным значением
      • NumPy clip(): Ограничьте значения массива минимальным и максимальным значениями
      • NumPy cumsum: Расчет кумулятивных сумм массивов NumPy
      • Изучаем функцию np.histogram в NumPy: создаем гистограмму
      • NumPy arange(): Полное руководство (с примерами)
      • Руководство по индексации и срезам массивов NumPy: Полное руководство
      • NumPy argmin(): Получение индекса минимального значения в массивах
      • Выравнивание массива с помощью NumPy flatten
      • Объединение массивов NumPy по различным осям с использованием функции stack
      • Удаление размерности из массивов NumPy с помощью NumPy Squeeze
      • Функция np.repeat() NumPy: Повторение массивов NumPy
      • Использование функции NumPy.exp() для вычисления экспоненты
      • Реализация функции сигмоида на Python
      • NumPy Pad: Использование np.pad() для дополнения массивов и матриц
      • np.argmax(): Как использовать NumPy Argmax
      • NumPy logspace: Понимание функции np.logspace()
      • Использование NumPy Tile для Расположения Массивов
      • NumPy Zeros: Создание массивов и матриц с нулями в NumPy
      • Использование числа Пи в Python (NumPy и Math)
      • Распределение Нормального (Гауссова) Распределения в Numpy (Случайное Нормальное в Numpy)
      • NumPy для Data Science на Python
      • Расчет скалярного произведения с использованием Numpy в Python
      • Расчет натурального логарифма на Python
    • Pandas
      • Python сводные таблицы – Полное руководство
      • Изучение API стиля Pandas
      • Объяснение группировки по нескольким столбцам в Pandas с примерами
      • Удаление индексной колонки DataFrame в Pandas: Руководство с примерами
      • Pandas Quantile: Расчет процентилей в DataFrame
      • Как рассчитать скользящее среднее (среднее арифметическое) в Pandas
      • Руководство по использованию метода fillna в Pandas для работы с отсутствующими данными в DataFrame
      • Pandas unique(): Получение уникальных значений в DataFrame
      • Распакуйте Ваши Данные с Помощью Функции Melt в Pandas
      • Pandas date_range: Как Создать Диапазон Дат в Pandas
      • Сброс индекса в Pandas: как сбросить индекс в Pandas
      • Pandas replace() – Замена значений в DataFrame Pandas
      • Перемещение столбца DataFrame Pandas на позицию (В начало и в конец)
      • Учебное пособие по Python Pandas: полное руководство
      • Pandas: Замена NaN на нули
      • Преобразование DataFrame Pandas в файл Pickle
      • Конвертация Pandas DataFrame в JSON
      • Преобразование DataFrame Pandas в Словарь
      • Преобразование Pandas DataFrame в Список
      • Чтение файлов Parquet в Pandas с помощью pd.read_parquet
      • Pandas dropna(): Удаление отсутствующих записей и столбцов в DataFrame
      • Как Добавить Новый Столбец в DataFrame Pandas
      • Подсчёт уникальных значений в Pandas
      • Отображение всех столбцов и строк в DataFrame Pandas
      • Pandas to_excel: Запись DataFrames в файлы Excel
      • Как использовать Pandas для чтения файлов Excel в Python
      • Преобразование списка словарей в Pandas DataFrame
      • Как добавить/вставить строку в DataFrame Pandas
      • Диаграмма рассеяния в Pandas: Как создать диаграмму рассеяния в Pandas
      • Pandas to_datetime: Преобразование строки Pandas в дату и время
      • Введение в Pandas для Data Science
      • Индексация, Выборка и Присваивание Данных в Pandas
      • Суммирование и Анализ Pandas DataFrame
      • Преобразование столбцов Pandas с помощью map и apply
      • Группировка данных в Pandas с использованием cut и qcut
      • Дата и время в Pandas и Python
      • Очистка и подготовка данных в Pandas и Python
      • Pandas GroupBy: группировка, суммирование и агрегация данных в Python
      • Pandas Дата и Время в Части Даты (месяц, год и т.д.)
      • Pandas: Получение номера строки из DataFrame
      • Вычисление Взвешенного Среднего в Pandas и Python
      • Как перемешать строки Pandas Dataframe в Python
      • Pandas: количество столбцов (подсчет столбцов в DataFrame)
      • Pandas Sum: сложение столбцов и строк DataFrame
      • Pandas Diff: Вычисление Разницы Между Строками Pandas
      • Нормализация столбца или датафрейма Pandas (с использованием Pandas или sklearn)
      • Функция Rank в Pandas: Ранжирование данных в Dataframe (Эквивалент SQL row_number)
      • Pandas Describe: Описательная статистика вашего Dataframe
      • Pandas Shift: Перемещение столбца DataFrame вверх или вниз
      • 7 Способов Выполнения Выборки Данных в Pandas
      • Экспорт DataFrame Pandas в CSV файл – Использование .to_csv()
      • Pandas: Итерация по строкам DataFrame в Pandas
      • Pandas: Преобразование значений столбца в строки
      • Дисперсия в Pandas: Вычисление дисперсии столбца в Pandas Dataframe
      • Pandas: Создание DataFrame из списков (5 способов!)
      • Pandas Rename Index: Как переименовать индекс DataFrame в Pandas
      • Pandas: Подсчёт уникальных значений в объекте GroupBy
      • Pandas: Добавить дни к колонке с датами
      • Среднее в Pandas: Как рассчитать среднее для одной или нескольких колонок
      • Pandas Column to List – Конвертируйте колонку Pandas в список
      • Транспонирование Dataframe в Pandas
      • Python: Разделение DataFrame Pandas
      • Как получить имена столбцов в DataFrame Pandas
      • Pandas: Количество строк в DataFrame (6 способов)
      • Создание пустого DataFrame Pandas и добавление данных
      • Как переименовать столбцы в Pandas DataFrame (с примерами)
      • Изменение порядка столбцов в Pandas: использование метода reindex и метода insert
      • Pandas get_dummies (One-Hot кодирование), объяснение
      • Относительные и Абсолютные Частоты в Python и Pandas
      • Финансовый год – Определение финансового года в Pandas
      • Как сортировать данные в DataFrame Pandas
  • Учебники Matplotlib и Seaborn
    • Seaborn
      • Регрессионные графики в Seaborn с использованием regplot и lmplot
      • Seaborn residplot – Построение остатков линейной регрессии
      • Seaborn jointplot() – Создание совместных графиков в Seaborn
      • Seaborn displot – Распределенческие графики в Python
      • Seaborn ecdfplot – Эмпирические функции накопленного распределения
      • Seaborn rugplot – Визуализация маргинальных распределений
      • Seaborn kdeplot – Создание графиков оценки плотности ядра
      • Seaborn histplot – Создание Гистограмм в Seaborn
      • Seaborn catplot – Визуализация категориальных данных в Python
      • Средняя тенденция для категориальных данных в Seaborn Pointplot
      • Seaborn stripplot: Jitter Plots для распределений категориальных данных
      • Seaborn Countplot – Подсчет категориальных данных в Python
      • Seaborn swarmplot: Bee Swarm Plots для распределения категориальных данных
      • Скрипичные графики Seaborn в Python: Полное руководство
      • Настройка расположения легенд Seaborn, меток, текста и т.д.
      • Тепловая карта Seaborn: Полное руководство
      • Создание многосекционных сеток в Seaborn с помощью FacetGrid
      • Удаление рамки в Seaborn: Как работать с рамкой
      • Заголовки и метки осей в Seaborn: добавление и настройка
      • Как установить Seaborn в Python (Исправление: no module named seaborn)
      • Seaborn relplot – Создание точечных и линейных графиков
      • Полное руководство по созданию точечных диаграмм (scatter plots) в Python с использованием Seaborn
    • Matplotlib
      • Режим Retina в Matplotlib: Улучшение Качества Графиков
      • Как построить функцию в Python с использованием Matplotlib
      • Как создать 3D-диаграммы рассеяния в Matplotlib
      • Как изменить размер шрифта в графике Matplotlib
      • Установка размера маркера в точечных диаграммах Matplotlib
      • Как изменить размер графика и фигуры в Matplotlib
      • Как добавить названия в Matplotlib: Заголовок, Подзаголовок, Названия Осей
      • Pandas Scatter Plot: Как создать диаграмму рассеяния в Pandas
      • Построение графиков в Python с помощью Matplotlib
      • Диаграммы рассеяния Matplotlib – Все, что вам нужно знать
      • Диаграммы с столбцами в Matplotlib – Узнайте все, что вам нужно знать
      • Линейные диаграммы Matplotlib – Всё, что вам нужно знать
      • Построение гистограммы в Python с Matplotlib и Pandas
  • Алгоритмы
    • Алгоритм поиска в ширину (BFS) в Python
    • Алгоритм поиска в глубину (DFS) на Python
  • AI создает хедж-фонд для анализа акций на Python
Powered by GitBook
On this page
  • Обзор метода .sort_values() в Pandas
  • Загрузка примера DataFrame Pandas
  • Сортировка по одному столбцу DataFrame
  • Сортировка по нескольким столбцам DataFrame
  • Изменение порядка сортировки в .sort_values() в Pandas
  • Изменение порядка сортировки для нескольких столбцов DataFrame
  • Сортировка с пропущенными значениями в DataFrame Pandas
  • Сортировка DataFrame Pandas на месте (in-place)
  • Заключение и повторение материала
  1. Учебники по Pandas и Numpy
  2. Pandas

Как сортировать данные в DataFrame Pandas

PreviousФинансовый год – Определение финансового года в PandasNextУчебники Matplotlib и Seaborn

Last updated 16 hours ago

Сортировка данных — это важный метод для лучшего понимания ваших данных. В этой статье вы узнаете, как сортировать данные в DataFrame Pandas с помощью функции .sort_values(), как выполнять сортировку по возрастанию и убыванию, а также как сортировать по нескольким столбцам.

Возможность сортировки данных открывает перед вами множество возможностей. При работе с более визуальными инструментами, такими как Excel, одной из самых распространённых задач является сортировка данных — она помогает лучше понять структуру и диапазоны значений. Умение выполнять подобную операцию в Pandas даёт доступ к широкому спектру дальнейшего анализа. Начнём!

Содержание

Обзор метода .sort_values() в Pandas

Мы можем сортировать значения в DataFrame Pandas с помощью метода .sort_values(). Этот метод предоставляет широкий набор параметров, которые позволяют гибко настраивать способ сортировки данных по вашему усмотрению! Давайте рассмотрим основные параметры и возможности этого метода:

df.sort_values(
    by = [],
    axis = 0, 
    ascending = True, 
    inplace = False, 
    kind = 'quicksort', 
    na_position = 'last', 
    ignore_index = False, 
    key = None
)

В приведённой ниже таблице пошагово описаны эти параметры, чтобы вы могли понять, как каждый из них влияет на сортировку данных:

Параметр
Тип ввода
Значение по умолчанию
Описание

by=

строка или список строк

N/A

Имя столбца (или строки) или список имен для сортировки

axis=

0 or 1

0

Ось для сортировки (0 для строк и 1 для столбцов)

ascending=

булевы значения или список булевых значений

True

Сортировать по возрастанию или по убыванию, и может быть разным для каждого переданного столбца

inplace=

boolean

False

Проводить ли операцию на месте или нет

kind=

string

‘quicksort’

Выбор алгоритма сортировки из следующих вариантов:{‘quicksort’, ‘mergesort’, ‘heapsort’, ‘stable’}

na_position=

string

‘last’

Помещать ли отсутствующие значения в первую или последнюю позицию

ignore_index=

boolean

False

Следует ли переименовывать ось индекса или нет

key=

callable

None

Вызываемая функция, применяемая для сортировки данных

В методе .sort_values() действительно много возможностей для настройки. Однако с помощью всего нескольких параметров можно достичь большого результата. Теперь давайте перейдём к сортировке данных.

Загрузка примера DataFrame Pandas

Начнём с загрузки примера DataFrame. Набор данных размещен на Github и может быть загружен с помощью метода .read_csv(). Мы также добавим параметр, который преобразует столбец 'date' в тип даты (datetime). После загрузки DataFrame выведем первые пять строк с помощью метода .head():

# Загрузка примера Pandas DataFrame

import pandas as pd

# Загрузка CSV-файла по URL и преобразование столбца 'date' в формат даты
df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

print(df.head())

# Возвращает:
#         date  gender      region  sales
# 0 2022-08-22    Male  North-West  20381
# 1 2022-03-05    Male  North-East  14495
# 2 2022-02-09    Male  North-East  13510
# 3 2022-06-22    Male  North-East  15983
# 4 2022-08-10  Female  North-West  15007

Можно видеть, что DataFrame состоит из четырёх столбцов трёх различных типов данных:

  • 'date' — столбец, описывающий дату продажи (тип datetime)

  • 'gender' и 'region' — строковые столбцы

  • 'sales' — целочисленный столбец, описывающий объём продаж за определённый день

Теперь перейдём к сортировке нашего DataFrame в Pandas с помощью метода .sort_values().

Сортировка по одному столбцу DataFrame

Ключевым параметром в методе .sort_values() является параметр by=, поскольку он указывает, по какому столбцу или столбцам выполнять сортировку. Параметр принимает либо имя одного столбца в виде строки, либо список имён столбцов в виде списка строк. Начнём с сортировки данных по одному столбцу. Отсортируем данные по столбцу 'sales':

# Сортировка Pandas DataFrame по одному столбцу

# Предполагается, что DataFrame 'df' уже загружен из предыдущего примера
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Сортировка DataFrame по столбцу 'sales' в порядке возрастания (по умолчанию)
sorted = df.sort_values(by='sales')

print(sorted.head())

# Возвращает:
#           date  gender      region  sales
# 251 2022-10-20    Male  North-West   6084
# 346 2022-05-06  Female  North-West   6403
# 489 2022-07-01  Female  North-West   6824
# 463 2022-09-12  Female  North-West   7432
# 890 2022-10-02    Male  North-West   7633

Давайте разберём, что мы сделали в этом примере:

  • Мы создали новый DataFrame под названием sorted.

  • Применили к нему метод .sort_values(), передав всего один столбец для сортировки.

По умолчанию Pandas сортирует данные по возрастанию — это означает, что наименьшие значения будут находиться вверху таблицы. В следующих разделах вы узнаете, как изменить это поведение и выполнить сортировку по убыванию.

Сортировка по нескольким столбцам DataFrame

Метод .sort_values() в Pandas позволяет легко выполнять сортировку по нескольким столбцам. В предыдущем примере вы передавали всего один столбец в виде строки. Если же передать список строк, то можно задать приоритеты сортировки — сначала по одному столбцу, затем — внутри него по другому столбцу и так далее. Это позволяет создать иерархию сортировки.

Давайте отсортируем наши данные сначала по столбцу 'region', а затем — по столбцу 'sales':

# Сортировка Pandas DataFrame по нескольким столбцам

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Сортировка DataFrame сначала по столбцу 'region', затем по 'sales'
sorted = df.sort_values(by=['region', 'sales'])

print(sorted.head())

# Возвращает:
#           date  gender      region  sales
# 850 2022-07-26  Female  North-East  11664
# 770 2022-05-27    Male  North-East  12009
# 434 2022-11-28  Female  North-East  12353
# 76  2022-11-14  Female  North-East  12404
# 478 2022-09-12  Female  North-East  12709

Результат выглядит совсем иначе по сравнению с первым примером. Что здесь произошло:

  • Сначала данные были отсортированы по столбцу 'region' в алфавитном порядке (от A до Z).

  • Затем, внутри каждого региона, значения дополнительно отсортированы по столбцу 'sales' по возрастанию.

  • Это означает, что сортировка «сбрасывается» при переходе к новому значению внешнего столбца (в данном случае — нового региона).

Изменение порядка сортировки в .sort_values() в Pandas

В предыдущих примерах мы видели, что сортировка по умолчанию выполняется по возрастанию. Мы можем изменить это поведение, воспользовавшись параметром ascending=. Этот параметр принимает булево значение — True или False. По умолчанию установлено значение True.

Если вы хотите выполнить сортировку по убыванию, просто установите ascending=False. Давайте попробуем это на практике!

# Сортировка значений в убывающем порядке в Pandas

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Сортировка DataFrame по столбцу 'sales' в порядке убывания
sorted = df.sort_values(by='sales', ascending=False)

print(sorted.head())

# Возвращает:
#           date  gender region  sales
# 61  2022-02-22  Female  South  43775
# 673 2022-04-19    Male  South  37878
# 111 2022-10-31  Female  South  36444
# 892 2022-09-05    Male  South  35723
# 136 2022-02-27    Male  South  35485

Можно видеть, что данные были отсортированы по столбцу 'sales', но в порядке убывания. Это означает, что самые высокие значения оказались в начале таблицы, а затем значения постепенно уменьшаются.

Изменение порядка сортировки для нескольких столбцов DataFrame

Аналогично тому, как вы передавали список столбцов для сортировки по нескольким полям, вы также можете передать список булевых значений, чтобы задать направление сортировки для каждого из столбцов. Это позволяет, например, отсортировать один столбец по возрастанию, а другой — по убыванию. Давайте рассмотрим это на примере ниже:

# Изменение порядка сортировки нескольких столбцов

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Сортировка DataFrame сначала по 'region' в убывающем порядке, затем по 'sales' в возрастающем порядке
sorted = df.sort_values(
    by=['region', 'sales'],  # Столбцы для сортировки
    ascending=[False, True]  # Соответствующий порядок сортировки: False для 'region' (убывание), True для 'sales' (возрастание)
)

print(sorted.head())

# Возвращает:
#           date  gender region  sales
# 739 2022-02-28    Male  South  10768
# 460 2022-11-15    Male  South  11567
# 616 2022-11-18  Female  South  12940
# 462 2022-09-28    Male  South  13055
# 213 2022-01-25    Male  South  13230

Здесь мы передали список булевых значений, чтобы задать разный порядок сортировки для каждого столбца. Конкретно:

  • Сначала данные были отсортированы по столбцу 'region' в порядке убывания — то есть в обратном алфавитном порядке.

  • Затем — по столбцу 'sales' в порядке возрастания.

Сортировка с пропущенными значениями в DataFrame Pandas

Пропущенные значения могут привести к неожиданным результатам при сортировке. К счастью, Pandas предоставляет широкие возможности для контроля их расположения после сортировки. По умолчанию пропущенные значения (NaN) размещаются в конце отсортированного списка.

Давайте модифицируем наш DataFrame, добавив в него некоторые пропущенные значения, чтобы проверить, как они влияют на сортировку:

# Добавление пропущенных значений в наш DataFrame

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Присвоение значений None (пропущенных значений) столбцу 'sales' для строк с индексами от 10 до 20
df.loc[10:20, 'sales'] = None

С помощью приведённого выше кода мы добавили десять пропущенных значений (NaN) в наш DataFrame. Теперь мы можем исследовать, как эти значения обрабатываются при сортировке.

Давайте отсортируем DataFrame по столбцу 'sales' в порядке возрастания и посмотрим, куда попадут строки с пропущенными данными:

# Понимание порядка сортировки пропущенных данных

# Предполагается, что DataFrame 'df' уже загружен и в него добавлены пропущенные значения
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])
# df.loc[10:20, 'sales'] = None

# Сортировка DataFrame по столбцу 'sales' в порядке возрастания (по умолчанию)
# Обратите внимание, что пропущенные значения (NaN) по умолчанию помещаются в конец
sorted = df.sort_values(
    by='sales',
)

print(sorted)

# Возвращает (показаны первые и последние строки для демонстрации):
#           date  gender      region   sales
# 251 2022-10-20    Male  North-West  6084.0
# 346 2022-05-06  Female  North-West  6403.0
# 489 2022-07-01  Female  North-West  6824.0
# 463 2022-09-12  Female  North-West  7432.0
# 890 2022-10-02    Male  North-West  7633.0
# ..         ...     ...         ...     ...
# 16  2022-04-18    Male  North-West     NaN
# 17  2022-07-30  Female  North-West     NaN
# 18  2022-02-03    Male  North-East     NaN
# 19  2022-01-15    Male  North-East     NaN
# 20  2022-01-21  Female       South     NaN

Можно видеть, что пропущенные данные оказались внизу отсортированного DataFrame. Это произошло потому, что по умолчанию используется параметр na_position='last'. Если мы хотим, чтобы пропущенные значения отображались вверху списка, можно передать значение 'first' для этого параметра. Давайте проверим это на практике:

# Изменение порядка сортировки пропущенных данных

# Предполагается, что DataFrame 'df' уже загружен и в него добавлены пропущенные значения
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])
# df.loc[10:20, 'sales'] = None

# Сортировка DataFrame по столбцу 'sales' с размещением пропущенных значений в начале
sorted = df.sort_values(
    by='sales',
    na_position='first' # Указывает, что NaN должны быть размещены в начале
)

print(sorted)

# Возвращает (показаны первые и последние строки для демонстрации):
#           date  gender      region    sales
# 10  2022-12-21    Male       South      NaN
# 11  2022-04-30  Female  North-West      NaN
# 12  2022-11-25  Female  North-East      NaN
# 13  2022-08-14  Female  North-East      NaN
# 14  2022-02-24  Female  North-East      NaN
# ..         ...     ...         ...      ...
# 136 2022-02-27    Male       South  35485.0
# 892 2022-09-05    Male       South  35723.0
# 111 2022-10-31  Female       South  36444.0
# 673 2022-04-19    Male       South  37878.0
# 61  2022-02-22  Female       South  43775.0

Сброс индекса после сортировки DataFrame в Pandas

Одним из моментов, на который вы могли обратить внимание, является то, что в предыдущих примерах отсортированный DataFrame сохранял свои исходные метки индексов. Это не всегда желаемое поведение. Чтобы изменить это, можно воспользоваться параметром ignore_index=, который по умолчанию установлен в значение False.

Если установить это значение в True, Pandas сбросит старые индексы и заменит их новыми, последовательными числами, начиная с 0:

# Игнорирование индекса при сортировке

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Сортировка DataFrame по столбцу 'sales'
# и сброс индекса таким образом, что он будет начинаться с 0 после сортировки
sorted = df.sort_values(
    by='sales',
    ignore_index=True  # Указывает, что индекс должен быть сброшен
)

print(sorted.head())

# Возвращает:
#         date  gender      region  sales
# 0 2022-10-20    Male  North-West   6084
# 1 2022-05-06  Female  North-West   6403
# 2 2022-07-01  Female  North-West   6824
# 3 2022-09-12  Female  North-West   7432
# 4 2022-10-02    Male  North-West   7633

Итоговый DataFrame теперь имеет индекс, начинающийся с 0 и увеличивающийся до длины DataFrame минус один. Это делает структуру данных более чистой и упорядоченной. Однако имейте в виду, что это изменение индекса является постоянным. Если исходный индекс содержал осмысленные данные (например, уникальные идентификаторы или метки), то такой подход может привести к потере важной информации.

Сортировка DataFrame Pandas на месте (in-place)

Во всех предыдущих примерах вы создавали новый DataFrame в результате сортировки и присваивали результат переменной. Однако Pandas также позволяет выполнять сортировку на месте, то есть без создания нового объекта — при этом изменяется сам исходный DataFrame.

Это можно сделать с помощью параметра inplace=, который по умолчанию установлен в значение False. Если установить его в True, операция будет выполнена прямо в исходном DataFrame. Вот как это выглядит:

# Сортировка DataFrame на месте

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/sales.csv', parse_dates=['date'])

# Сортировка DataFrame по столбцу 'sales' с изменением самого DataFrame (на месте)
df.sort_values(
    by='sales',
    inplace=True  # Указывает, что изменения должны быть применены к исходному DataFrame
)

print(df.head())

# Возвращает:
#           date  gender      region  sales
# 251 2022-10-20    Male  North-West   6084
# 346 2022-05-06  Female  North-West   6403
# 489 2022-07-01  Female  North-West   6824
# 463 2022-09-12  Female  North-West   7432
# 890 2022-10-02    Male  North-West   7633

Результирующий DataFrame выше был изменён на месте, то есть нам не нужно было повторно присваивать результат новой переменной.


Упражнения

Пришло время проверить, насколько хорошо вы усвоили материал! Ниже приведены несколько вопросов для самопроверки. Решения можно найти, нажав на соответствующий элемент (если предусмотрен интерфейс). Сначала попробуйте решить самостоятельно, а затем сверьтесь с ответами.

Отсортируйте DataFrame сначала по столбцу 'gender', а затем по столбцу 'region', оба — в порядке убывания.

Ответ:

df.sort_values(by=['gender', 'region'], ascending=[False, False])
Что произойдёт, если использовать следующий код:
df.sort_values(by=['region', 'gender'], ascending=[True, True, False])

Ответ: Будет вызвано исключение ValueError, поскольку количество значений в списке ascending не совпадает с количеством столбцов, переданных в параметре by.

Как с помощью сортировки получить второе по величине значение продаж (sales) среди всех регионов?

Ответ: Можно комбинировать .sort_values() с .iloc:

print(
    df.sort_values(
        by='sales',          # Сортировка по столбцу 'sales'
        ascending=False      # В порядке убывания
    ).iloc[1, 3])            # Получаем вторую строку и четвёртый столбец (индексация начинается с 0)


Заключение и повторение материала

В этом руководстве вы научились сортировать данные в DataFrame Pandas с помощью метода .sort_values(). Для краткого повторения:

  • Метод .sort_values() позволяет сортировать DataFrame по одному или нескольким столбцам

  • По умолчанию сортировка выполняется по возрастанию, а пропущенные значения (NaN) размещаются в конце

  • Можно задавать иерархию сортировки, указав несколько столбцов

  • Параметр ignore_index=True помогает очистить индексы после сортировки

  • Сортировку можно выполнять на месте, установив inplace=True

Для дополнительного изучения метода .sort_values() ознакомьтесь с .

официальной документацией
Обзор метода .sort_values() в Pandas
Загрузка примера DataFrame
Сортировка одного столбца в Pandas
Сортировка нескольких столбцов в Pandas
Изменение порядка сортировки
Сортировка с пропущенными значениями
Сброс индексов после сортировки
Сортировка на месте (in-place)
Упражнения
Заключение и повторение материала