Bemind
Учебник Python
Учебник Python
  • Python
    • Python Lists
      • Списковые включения в Python (Полное руководство с примерами)
      • Исправление ValueError: Слишком Много Значений Для Распаковки в Python
      • Как добавить словарь в список в Python
      • Как добавить строку в список в Python
      • Разница между массивами и списками в Python
      • Python: Различия между списками и кортежами
      • Как проверить, пуст ли список в Python
      • Как Итерировать (Циклически Проходить) По Списку в Python
      • Python List sort(): Подробное руководство по сортировке списков
      • Python List Extend: Как добавить несколько элементов в список
      • Python: Найти Индекс Всех Вхождений Элемента в Списке
      • Конвертация списка словарей в Pandas DataFrame
      • Генерация случайных чисел в Python
      • Поиск Индекса в Списке Python: Найти Первое, Последнее или Все Вхождения
      • Добавить в начало списка в Python (Вставить в начало)
      • Найти дубликаты в списке Python
      • Python: Умножение Списков (6 Различных Способов)
      • Python списки: Полный обзор
      • Python: Выбор случайного элемента из списка
      • 4 Способа Очистить Список в Python
      • Объяснение ошибки IndexError в Python: индекс списка выходит за пределы допустимого диапазона
      • Python: Получение индекса максимального элемента в списке
      • Python: Объединение списков – Слияние списков (8 способов)
      • Python: Проверка наличия элемента в списке
      • Python: Проверка наличия элемента в списке
      • Удаление элемента из списка в Python (pop, remove, del, clear)
      • Как перевернуть список в Python (6 способов)
      • Python: Замена элемента в списке (6 различных способов)
      • Python: Удаление дубликатов из списка (7 способов)
      • Python: Преобразование словаря в список кортежей (4 простых способа)
      • Python: Перемешать Список (Случайное Распределение Элементов Списка в Python)
      • Python: Пересечение двух списков
      • Python: Вычитание двух списков (4 простых способа!)
      • Длина или Размер Списка в Python: 5 Способов Узнать Длину Списка
      • Python: Транспонирование списка списков (5 простых способов!)
      • Python: Разделение списка (Пополам, на части)
      • Python: Комбинации списка (Получить все комбинации списка)
      • Python: Выравнивание списка списков (4 способа)
      • Разница между списками в Python: Нахождение разницы между двумя списками Python
      • Python: Найти среднее значение списка или списка списков
      • Как добавлять элементы в списки в Python – 4 простых способа!
      • Списковые включения в Python (Полное руководство с примерами)
      • 6 способов преобразовать список Python в строку
    • Python Dictionaries
      • Понимание словаря Python (с примерами)
      • Исправляем ValueError: Слишком Много Значений Для Распаковки в Python
      • Как добавить словарь в список в Python
      • Преобразование JSON в словарь Python
      • Полное руководство по вложенным словарям в Python
      • Копирование словаря в Python: Полное руководство
      • Конвертация списка словарей в Pandas DataFrame
      • Поиск дубликатов в списке Python
      • Полный обзор словарей в Python
      • Python: Добавление пары Ключ:Значение в Словарь
      • Python: Сортировка словаря по значениям
      • Слияние Словарей в Python – Комбинирование Словарей (7 Способов)
      • Python: Удаление Дубликатов из Списка (7 Способов)
      • Python: Преобразование словаря в список кортежей (4 простых способа)
      • Python: Красивая Печать Словаря (Dictionary) – 4 Способа
      • Python: Проверка пуст ли словарь (5 способов!)
      • Copy of Python: Проверка пуст ли словарь (5 способов!)
      • Python: Проверьте, существует ли ключ (или значение) в словаре (5 простых способов)
      • Python: Проверьте, существует ли ключ (или значение) в словаре (5 простых способов)
      • Python: Получение Ключа Словаря с Максимальным Значением (4 Способа)
      • Python: Удаление ключа из словаря (4 разных способа)
      • Как красиво вывести JSON-файл в Python (6 методов)
    • Python Strings
      • Python Капитализация Строк: Руководство по Преобразованию слов в Заглавные
      • Python strip: Как обрезать строку в Python
      • Python Обратная Строка: Руководство по Реверсированию Строк
      • Как Удалить Префикс или Суффикс из Строки в Python
      • Преобразование строки в формат заголовка в Python с помощью str.title()
      • Как добавить строку в список в Python
      • Python String startswith: Проверка, начинается ли строка с подстроки
      • Python String endswith: Проверка того, заканчивается ли строка подстрокой
      • Как удалить первый или последний символ из строки в Python
      • Как исправить: SyntaxError в Python - EOL при сканировании строкового литерала
      • Python String Contains: Проверка Наличия Подстроки в Строке
      • Как проверить, пустая ли строка в Python
      • Python Новая Строка и Как Печатать Без Переноса Строки
      • Как Конкатенировать Строки в Python: Полное Руководство
      • Python: Подсчет слов в строке или файле
      • Как создать список алфавита в Python
      • Python: Конкатенация строки и целого числа (Int)
      • Python: Сортировка строки (4 различных способа)
      • Python zfill и rjust: Добавление нулей в строку в Python
      • Python: Целое в Двоичное (Преобразование целого числа в двоичную строку)
      • Python rfind: Нахождение индекса последней подстроки в строке
      • Python SHA256 хеширование алгоритм: объяснение
      • Python: Усечение числа с плавающей точкой (6 различных способов)
      • Выбор между методами Python isdigit(), isnumeric() и isdecimal()
      • Python: Удаление специальных символов из строки
      • Python Приведение Строки к Нижнему Регистру с помощью .lower(), .casefold(), и .islower()
      • Python программа для проверки, является ли строка палиндромом (6 методов)
      • Python: Найдите все перестановки строки (3 легких способа!)
      • Python: Удаление пунктуации из строки (3 разных способа!)
      • Python: Найти индекс (или все индексы) подстроки в строке
      • Python: Удаление символов новой строки из строки
      • Python: Удаление символа из строки (4 способа)
      • Python: Количество вхождений в строке (4 способа!)
    • Встроенные функции Python
      • abs()
      • ascii()
      • aiter()
      • all()
      • any()
      • anext()
      • bin()
      • bool()
      • breakpoint()
      • bytearray()
      • bytes()
      • callable()
      • chr()
      • classmethod()
      • compile()
      • complex()
      • delattr()
      • dict()
      • dir()
      • divmod()
      • enumerate()
      • eval()
      • exec()
      • filter()
      • float()
      • format()
      • frozenset()
      • getattr()
      • globals()
      • hasattr()
      • hash()
      • help()
      • hex()
      • id()
      • input()
      • int()
      • issubclass()
      • iter()
      • len()
      • list()
      • locals()
      • map()
      • max()
      • memoryview()
      • min()
      • next()
      • object()
      • oct()
      • open()
      • ord()
      • pow()
      • print()
      • property()
      • range()
      • repr()
      • reversed()
      • round()
      • set()
      • setattr()
      • isinstance()
      • slice()
      • zip()
      • type()
      • sorted()
      • staticmethod()
      • str()
      • sum()
      • super()
      • tuple()
      • vars()
      • import()
    • Cобеседования Python. Разбор реальных вопросов.
    • Встроенные методы в Python
  • Учебники по Pandas и Numpy
    • Numpy
      • Функция активации ReLU для глубокого обучения: полное руководство по выпрямленному линейному блоку
      • Как нормализовать массивы NumPy (минимальное-максимальное масштабирование, Z-оценка, L2)
      • NumPy where: Условная обработка элементов массива
      • NumPy linspace: создание равномерно расположенных массивов с помощью np.linspace
      • Как рассчитать векторное произведение в Python
      • Разделение NumPy: Разделение массива NumPy на части
      • NumPy: Лучшие способы применения функции к массиву
      • NumPy full: Создание массивов с заданным значением
      • NumPy clip(): Ограничьте значения массива минимальным и максимальным значениями
      • NumPy cumsum: Расчет кумулятивных сумм массивов NumPy
      • Изучаем функцию np.histogram в NumPy: создаем гистограмму
      • NumPy arange(): Полное руководство (с примерами)
      • Руководство по индексации и срезам массивов NumPy: Полное руководство
      • NumPy argmin(): Получение индекса минимального значения в массивах
      • Выравнивание массива с помощью NumPy flatten
      • Объединение массивов NumPy по различным осям с использованием функции stack
      • Удаление размерности из массивов NumPy с помощью NumPy Squeeze
      • Функция np.repeat() NumPy: Повторение массивов NumPy
      • Использование функции NumPy.exp() для вычисления экспоненты
      • Реализация функции сигмоида на Python
      • NumPy Pad: Использование np.pad() для дополнения массивов и матриц
      • np.argmax(): Как использовать NumPy Argmax
      • NumPy logspace: Понимание функции np.logspace()
      • Использование NumPy Tile для Расположения Массивов
      • NumPy Zeros: Создание массивов и матриц с нулями в NumPy
      • Использование числа Пи в Python (NumPy и Math)
      • Распределение Нормального (Гауссова) Распределения в Numpy (Случайное Нормальное в Numpy)
      • NumPy для Data Science на Python
      • Расчет скалярного произведения с использованием Numpy в Python
      • Расчет натурального логарифма на Python
    • Pandas
      • Python сводные таблицы – Полное руководство
      • Изучение API стиля Pandas
      • Объяснение группировки по нескольким столбцам в Pandas с примерами
      • Удаление индексной колонки DataFrame в Pandas: Руководство с примерами
      • Pandas Quantile: Расчет процентилей в DataFrame
      • Как рассчитать скользящее среднее (среднее арифметическое) в Pandas
      • Руководство по использованию метода fillna в Pandas для работы с отсутствующими данными в DataFrame
      • Pandas unique(): Получение уникальных значений в DataFrame
      • Распакуйте Ваши Данные с Помощью Функции Melt в Pandas
      • Pandas date_range: Как Создать Диапазон Дат в Pandas
      • Сброс индекса в Pandas: как сбросить индекс в Pandas
      • Pandas replace() – Замена значений в DataFrame Pandas
      • Перемещение столбца DataFrame Pandas на позицию (В начало и в конец)
      • Учебное пособие по Python Pandas: полное руководство
      • Pandas: Замена NaN на нули
      • Преобразование DataFrame Pandas в файл Pickle
      • Конвертация Pandas DataFrame в JSON
      • Преобразование DataFrame Pandas в Словарь
      • Преобразование Pandas DataFrame в Список
      • Чтение файлов Parquet в Pandas с помощью pd.read_parquet
      • Pandas dropna(): Удаление отсутствующих записей и столбцов в DataFrame
      • Как Добавить Новый Столбец в DataFrame Pandas
      • Подсчёт уникальных значений в Pandas
      • Отображение всех столбцов и строк в DataFrame Pandas
      • Pandas to_excel: Запись DataFrames в файлы Excel
      • Как использовать Pandas для чтения файлов Excel в Python
      • Преобразование списка словарей в Pandas DataFrame
      • Как добавить/вставить строку в DataFrame Pandas
      • Диаграмма рассеяния в Pandas: Как создать диаграмму рассеяния в Pandas
      • Pandas to_datetime: Преобразование строки Pandas в дату и время
      • Введение в Pandas для Data Science
      • Индексация, Выборка и Присваивание Данных в Pandas
      • Суммирование и Анализ Pandas DataFrame
      • Преобразование столбцов Pandas с помощью map и apply
      • Группировка данных в Pandas с использованием cut и qcut
      • Дата и время в Pandas и Python
      • Очистка и подготовка данных в Pandas и Python
      • Pandas GroupBy: группировка, суммирование и агрегация данных в Python
      • Pandas Дата и Время в Части Даты (месяц, год и т.д.)
      • Pandas: Получение номера строки из DataFrame
      • Вычисление Взвешенного Среднего в Pandas и Python
      • Как перемешать строки Pandas Dataframe в Python
      • Pandas: количество столбцов (подсчет столбцов в DataFrame)
      • Pandas Sum: сложение столбцов и строк DataFrame
      • Pandas Diff: Вычисление Разницы Между Строками Pandas
      • Нормализация столбца или датафрейма Pandas (с использованием Pandas или sklearn)
      • Функция Rank в Pandas: Ранжирование данных в Dataframe (Эквивалент SQL row_number)
      • Pandas Describe: Описательная статистика вашего Dataframe
      • Pandas Shift: Перемещение столбца DataFrame вверх или вниз
      • 7 Способов Выполнения Выборки Данных в Pandas
      • Экспорт DataFrame Pandas в CSV файл – Использование .to_csv()
      • Pandas: Итерация по строкам DataFrame в Pandas
      • Pandas: Преобразование значений столбца в строки
      • Дисперсия в Pandas: Вычисление дисперсии столбца в Pandas Dataframe
      • Pandas: Создание DataFrame из списков (5 способов!)
      • Pandas Rename Index: Как переименовать индекс DataFrame в Pandas
      • Pandas: Подсчёт уникальных значений в объекте GroupBy
      • Pandas: Добавить дни к колонке с датами
      • Среднее в Pandas: Как рассчитать среднее для одной или нескольких колонок
      • Pandas Column to List – Конвертируйте колонку Pandas в список
      • Транспонирование Dataframe в Pandas
      • Python: Разделение DataFrame Pandas
      • Как получить имена столбцов в DataFrame Pandas
      • Pandas: Количество строк в DataFrame (6 способов)
      • Создание пустого DataFrame Pandas и добавление данных
      • Как переименовать столбцы в Pandas DataFrame (с примерами)
      • Изменение порядка столбцов в Pandas: использование метода reindex и метода insert
      • Pandas get_dummies (One-Hot кодирование), объяснение
      • Относительные и Абсолютные Частоты в Python и Pandas
      • Финансовый год – Определение финансового года в Pandas
      • Как сортировать данные в DataFrame Pandas
      • Pandas Value_counts для подсчета уникальных значений
  • Учебники Matplotlib и Seaborn
    • Seaborn
      • Регрессионные графики в Seaborn с использованием regplot и lmplot
      • Seaborn residplot – Построение остатков линейной регрессии
      • Seaborn jointplot() – Создание совместных графиков в Seaborn
      • Seaborn displot – Распределенческие графики в Python
      • Seaborn ecdfplot – Эмпирические функции накопленного распределения
      • Seaborn rugplot – Визуализация маргинальных распределений
      • Seaborn kdeplot – Создание графиков оценки плотности ядра
      • Seaborn histplot – Создание Гистограмм в Seaborn
      • Seaborn catplot – Визуализация категориальных данных в Python
      • Средняя тенденция для категориальных данных в Seaborn Pointplot
      • Seaborn stripplot: Jitter Plots для распределений категориальных данных
      • Seaborn Countplot – Подсчет категориальных данных в Python
      • Seaborn swarmplot: Bee Swarm Plots для распределения категориальных данных
      • Скрипичные графики Seaborn в Python: Полное руководство
      • Настройка расположения легенд Seaborn, меток, текста и т.д.
      • Тепловая карта Seaborn: Полное руководство
      • Создание многосекционных сеток в Seaborn с помощью FacetGrid
      • Удаление рамки в Seaborn: Как работать с рамкой
      • Заголовки и метки осей в Seaborn: добавление и настройка
      • Как установить Seaborn в Python (Исправление: no module named seaborn)
      • Seaborn relplot – Создание точечных и линейных графиков
      • Полное руководство по созданию точечных диаграмм (scatter plots) в Python с использованием Seaborn
    • Matplotlib
      • Режим Retina в Matplotlib: Улучшение Качества Графиков
      • Как построить функцию в Python с использованием Matplotlib
      • Как создать 3D-диаграммы рассеяния в Matplotlib
      • Как изменить размер шрифта в графике Matplotlib
      • Установка размера маркера в точечных диаграммах Matplotlib
      • Как изменить размер графика и фигуры в Matplotlib
      • Как добавить названия в Matplotlib: Заголовок, Подзаголовок, Названия Осей
      • Pandas Scatter Plot: Как создать диаграмму рассеяния в Pandas
      • Построение графиков в Python с помощью Matplotlib
      • Диаграммы рассеяния Matplotlib – Все, что вам нужно знать
      • Диаграммы с столбцами в Matplotlib – Узнайте все, что вам нужно знать
      • Линейные диаграммы Matplotlib – Всё, что вам нужно знать
      • Построение гистограммы в Python с Matplotlib и Pandas
  • Алгоритмы
    • Алгоритм поиска в ширину (BFS) в Python
    • Алгоритм поиска в глубину (DFS) на Python
  • AI создает хедж-фонд для анализа акций на Python
Powered by GitBook
On this page
  • Обзор метода .value_counts() в Pandas
  • Загрузка примера DataFrame
  • Создание таблицы частот в Pandas с помощью .value_counts()
  • Сортировка таблицы частот в Pandas
  • Расчёт таблицы частот в Pandas с использованием процентов
  • Группировка (биннинг) данных в таблицах частот Pandas
  • Работа с пропущенными значениями в таблицах частот Pandas
  • Расчёт таблицы частот для нескольких столбцов с помощью .value_counts()
  • Заключение и повторение материала
  • Дополнительные ресурсы
  1. Учебники по Pandas и Numpy
  2. Pandas

Pandas Value_counts для подсчета уникальных значений

PreviousКак сортировать данные в DataFrame PandasNextУчебники Matplotlib и Seaborn

Last updated 2 days ago

В этом руководстве вы узнаете, как использовать метод .value_counts() в Pandas для подсчёта значений в вашем DataFrame и создания таблиц частот. Умение подсчитывать значения в наборе данных — важный шаг к лучшему пониманию распределения ваших данных. Метод .value_counts() содержит множество полезных параметров, которые позволяют тонко настраивать анализ.

К концу этого урока вы научитесь:

  • Использовать метод .value_counts() в Pandas

  • Создавать таблицы абсолютных и относительных частот

  • Обрабатывать пропущенные данные

  • Упрощать группировку (биннинг) значений в столбце

  • Комбинировать .value_counts() с методом .groupby(), чтобы исследовать частоты по разным группам

Содержание

Обзор метода .value_counts() в Pandas

Метод .value_counts() можно применять как к отдельному столбцу DataFrame, так и ко всему DataFrame целиком. Поведение метода немного отличается в зависимости от контекста применения, но в большинстве случаев он работает одинаково. Если будут различия, они будут указаны отдельно.

Давайте посмотрим на сигнатуру метода и его параметры по умолчанию:

# Метод value_counts() в Pandas

# Метод Series.value_counts() возвращает Series, содержащую количество уникальных значений.
# Результатом будет объект в убывающем порядке, чтобы первый элемент был наиболее часто встречающимся элементом.
# Исключает значения NA по умолчанию.

.value_counts(
    normalize=False,        # Будет ли возвращать относительные частоты (True) вместо абсолютных количеств (False).
                            # Если True, то все значения будут в диапазоне [0, 1].
    sort=True,              # Сортировать ли результат по частотам. По умолчанию True.
    ascending=False,        # Сортировать ли по возрастанию (True) или по убыванию (False) частот. По умолчанию False (убывание).
    bins=None,              # Если указано, значения будут сгруппированы в полуоткрытые бины (интервалы).
                            # Работает только для числовых данных.
    dropna=True             # Обработка пропущенных значений (NaN/None).
                            # Если True (по умолчанию), NaN будут исключены из подсчета.
                            # Если False, NaN будут включены в подсчет как отдельная категория.
)

Метод .value_counts() имеет только необязательные параметры, что означает, что если вы просто хотите подсчитать частоты значений, вы можете применить метод напрямую, без необходимости передавать какие-либо аргументы.

Загрузка примера DataFrame

Чтобы следовать данному руководству, загрузите приведённый ниже набор данных, скопировав и вставив предоставленный код. Если у вас есть собственные данные, вы можете использовать их — разумеется, ваши результаты будут отличаться.

# Загрузка примера Pandas DataFrame

import pandas as pd

# Загрузка CSV-файла с данными о студентах по указанному URL
df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')

print(df.head())

# Возвращает:
#    Grade    Class Type  Students
# 0     10      Beginner        35
# 1     11  Intermediate        20
# 2     10      Beginner        15
# 3     12      Advanced        15
# 4      9  Intermediate        30

Набор данных содержит всего три столбца, два из которых можно считать категориальными. Данные охватывают различные оценки (grades), типы классов и количество студентов в каждой группе.

Создание таблицы частот в Pandas с помощью .value_counts()

В этом разделе вы узнаете, как применять метод .value_counts() к столбцу DataFrame в Pandas. Например, если вы хотите подсчитать, сколько раз каждое уникальное значение встречается в столбце Students, вы можете просто применить этот метод к данному столбцу.

Давайте посмотрим, как это выглядит без передачи дополнительных аргументов — они будут рассмотрены позже в этом руководстве.

# Вычисление таблицы частот для столбца DataFrame

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')

print(df['Students'].value_counts())

# Возвращает:
# 20    32
# 30    23
# 25    16
# 15    12
# 35    10
# 40     7
# Name: Students, dtype: int64

Метод возвращает объект Series, содержащий все уникальные значения и их количество. Поскольку результат является Series, вы можете легко получить доступ к данным с помощью индексации. Например, если вы хотите узнать, сколько раз встречается значение 20 (то есть, сколько классов содержат 20 студентов), вы можете обратиться к индексу [20]:

# Доступ к счетчикам одной категории

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')

# Получение количества вхождений значения '20' из Series, возвращаемой value_counts()
print(df['Students'].value_counts()[20])

# Возвращает: 32

В следующем разделе вы узнаете, как сортировать таблицу частот в Pandas.

Сортировка таблицы частот в Pandas

Сортировка таблицы частот, созданной с помощью метода .value_counts(), управляется двумя параметрами:

  1. sort= — определяет, нужно ли сортировать данные (по умолчанию True).

  2. ascending= — указывает порядок сортировки: по возрастанию (True) или по убыванию (False).

По умолчанию Pandas сортирует значения по убыванию (то есть самые частые значения отображаются первыми).

Мы можем изменить это поведение и выполнить сортировку по возрастанию, установив параметр ascending=True. Это может быть полезно, если вы хотите увидеть наименее часто встречающиеся значения в наборе данных.

# Сортировка подсчитанных значений в порядке возрастания

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')

# Вычисление таблицы частот для столбца 'Students' и сортировка результатов по возрастанию частоты
print(df['Students'].value_counts(ascending=True))

# Возвращает:
# 40     7
# 35    10
# 15    12
# 25    16
# 30    23
# 20    32
# Name: Students, dtype: int64

В этом случае наименее часто встречающиеся значения находятся выше в возвращаемой Series.

Отключив сортировку полностью (установив sort=False), данные будут отображаться в том порядке, в котором Pandas встречает их в наборе данных.

Сортировка таблицы частот по индексу (меткам)

В предыдущем разделе вы узнали, что метод .value_counts() возвращает объект Series, который может быть отсортирован или оставлен без изменений. Однако бывают случаи, когда вместо сортировки по частоте значений вы хотите отсортировать данные по их меткам (то есть по категориям).

Это можно сделать, добавив к результату метод .sort_index(). Данные можно отсортировать по возрастанию или убыванию, используя параметр ascending=.

Давайте отсортируем нашу таблицу частот по категориям в алфавитном порядке:

# Сортировка таблицы частот по ее индексу

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')

# Вычисление таблицы частот для столбца 'Students'
# и затем сортировка полученного Series по индексу (значениям количества студентов) по возрастанию
print(df['Students'].value_counts().sort_index(ascending=True))

# Возвращает:
# 15    12
# 20    32
# 25    16
# 30    23
# 35    10
# 40     7
# Name: Students, dtype: int64

В следующем разделе вы узнаете, как рассчитать таблицу частот в Pandas, где вместо абсолютных значений будут использоваться нормализованные проценты.

Расчёт таблицы частот в Pandas с использованием процентов

Библиотека Pandas позволяет очень легко отображать частоты в процентах. Это делает данные проще для понимания, особенно при анализе распределения. Чтобы преобразовать подсчитанные значения в доли (проценты), можно использовать параметр normalize=.

По умолчанию этот параметр установлен в значение False. Если изменить его на True, значения будут представлены в виде долей от общей суммы (в диапазоне от 0 до 1):

# Отображение процентов для подсчитанных значений

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')

# Вычисление таблицы частот для столбца 'Students'
# и отображение относительных частот (процентов) вместо абсолютных количеств
print(df['Students'].value_counts(normalize=True))

# Возвращает:
# 20    0.32
# 30    0.23
# 25    0.16
# 15    0.12
# 35    0.10
# 40    0.07
# Name: Students, dtype: float64

Имейте в виду, что по умолчанию Pandas сортирует значения по убыванию. Нормализация данных позволяет легко понять, какую долю от всего набора данных представляет каждая категория.

Группировка (биннинг) данных в таблицах частот Pandas

Метод .value_counts() также позволяет разбивать числовые данные на группы (бины) равного размера. Это удобная обёртка над методом .cut() из Pandas и позволяет подсчитать количество значений в каждой группе.

Давайте разделим данные на четыре числовые группы, воспользовавшись параметром bins=:

# Разбиение данных на интервалы (биннинг) с помощью Pandas value_counts

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')

# Вычисление таблицы частот для столбца 'Students' с разбиением на 4 равных интервала (бина)
print(df['Students'].value_counts(bins=4))

# Возвращает:
# (14.974, 21.25]    44
# (27.5, 33.75]      23
# (33.75, 40.0]      17
# (21.25, 27.5]      16
# Name: Students, dtype: int64

Работа с пропущенными значениями в таблицах частот Pandas

В этом разделе вы узнаете, как обрабатывать пропущенные данные при использовании метода .value_counts(). Чтобы подробнее рассмотреть этот вопрос, давайте добавим в наш DataFrame некоторые пропущенные значения (NaN).

# Вставка пропущенных значений в DataFrame

# Предполагается, что DataFrame 'df' уже загружен
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')

# Присвоение значений None (пропущенных значений) столбцу 'Students' для строк с индексами от 0 до 10 включительно
df.loc[:10, 'Students'] = None

print(df.head())

# Возвращает:
#    Grade    Class Type  Students
# 0     10      Beginner       NaN
# 1     11  Intermediate       NaN
# 2     10      Beginner       NaN
# 3     12      Advanced       NaN
# 4      9  Intermediate       NaN

Теперь, когда в нашем DataFrame появились пропущенные значения (NaN), применим метод .value_counts() с параметрами по умолчанию и посмотрим, как будут выглядеть результаты:

# Просмотр подсчитанных значений

# Предполагается, что DataFrame 'df' уже загружен и содержит пропущенные значения
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')
# df.loc[:10, 'Students'] = None

print(df['Students'].value_counts())

# Возвращает:
# 20.0    27
# 30.0    21
# 25.0    16
# 15.0    10
# 35.0     8
# 40.0     7
# Name: Students, dtype: int64

По умолчанию метод исключает все пропущенные значения (NaN) из результата. Однако зачастую бывает полезно включить эти значения в анализ. Это можно сделать, передав dropna=True в параметрах метода .value_counts().

# Включение пропущенных значений в метод value_counts

# Предполагается, что DataFrame 'df' уже загружен и содержит пропущенные значения
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')
# df.loc[:10, 'Students'] = None

print(df['Students'].value_counts(dropna=False))

# Возвращает:
# 20.0    27
# 30.0    21
# 25.0    16
# NaN     11  # <- Теперь NaN включены в подсчет
# 15.0    10
# 35.0     8
# 40.0     7
# Name: Students, dtype: int64

Расчёт таблицы частот для нескольких столбцов с помощью .value_counts()

Метод .value_counts() также можно применять к нескольким столбцам одновременно. Преимущество применения метода ко всему DataFrame заключается в том, что становится доступен параметр subset=. Он позволяет передать список столбцов, по которым будет рассчитана комбинация уникальных значений и их частота.

Давайте посмотрим, как распределены значения по столбцам Grade и Class Type:

# Применение .value_counts() к нескольким столбцам

# Предполагается, что DataFrame 'df' уже загружен и содержит пропущенные значения
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')
# df.loc[:10, 'Students'] = None

print(df.value_counts(subset=['Class Type', 'Grade']))

# Возвращает:
# Class Type    Grade
# Beginner      11       14
# Advanced      10       11
# Intermediate  10       10
#               12       10
#               9         9
# Advanced      9         7
#               11        7
# Beginner      10        7
# Intermediate  11        7
# Advanced      12        6
# Beginner      9         6
#               12        6
# dtype: int64

Сейчас результат возвращается в виде довольно неупорядоченного объекта Series. Вы можете улучшить восприятие данных, отсортировав индекс, чтобы лучше понимать иерархию комбинаций значений.

# Сортировка индекса после применения .value_counts к DataFrame

# Предполагается, что DataFrame 'df' уже загружен и содержит пропущенные значения
# import pandas as pd
# df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')
# df.loc[:10, 'Students'] = None

# Вычисление таблицы частот для комбинаций 'Class Type' и 'Grade'
# и затем сортировка полученного Series по его мультииндексу (по умолчанию по возрастанию)
print(df.value_counts(subset=['Class Type', 'Grade']).sort_index())

# Возвращает:
# Class Type    Grade
# Advanced      9         7
#               10       11
#               11        7
#               12        6
# Beginner      9         6
#               10        7
#               11       14
#               12        6
# Intermediate  9         9
#               10       10
#               11        7
#               12       10
# dtype: int64

Упражнения

Пришло время проверить, насколько хорошо вы усвоили материал! Попробуйте выполнить приведённые ниже упражнения. Для их решения используйте предоставленный ниже DataFrame:

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/datagy/data/main/students.csv')
df.loc[:10, 'Students'] = None
Метод .idxmax() возвращает индекс максимального значения в Series или DataFrame. Чтобы найти оценку (Grade), которая встречается чаще всего , можно использовать метод .value_counts() совместно с .idxmax()
print(df['Grade'].value_counts().idxmax())
# Returns: 10
Какой процент значений отсутствует в столбце «Студенты»?
print(df['Students'].isna().value_counts(normalize=True)[1])
# Returns: 0.11
Как часто в наборе данных появляется второе по величине количество студентов?
print(df['Students'].value_counts().iloc[1])

# Returns: 21

Заключение и повторение материала

В этом руководстве вы узнали, как использовать метод .value_counts() в Pandas для создания таблиц частот, подсчитывающих количество значений в Series или DataFrame. Ниже приведены основные моменты, которые вы изучили:

  • Метод .value_counts() можно применять как к Series (столбцу), так и ко всему DataFrame.

  • Он подсчитывает, сколько раз каждое значение встречается в данных.

  • С помощью параметра normalize=True можно получить относительные частоты (в долях от общего числа).

  • Метод можно использовать для нескольких столбцов одновременно, чтобы исследовать комбинации значений и их частоты.

Этот инструмент особенно полезен на этапе анализа данных, когда важно понимать распределение категорий или числовых значений.


Дополнительные ресурсы

Pandas GroupBy: группировка, агрегация и анализ данных
Pandas describe(): получение описательной статистики
Python Defaultdict: обзор и примеры использования
Официальная документация Pandas: value_counts()
Обзор метода .value_counts() в Pandas
Загрузка примера DataFrame
Создание таблицы частот с помощью .value_counts()
Сортировка таблицы частот
Расчёт процентного соотношения (относительных частот)
Группировка (биннинг) данных в таблицах частот
Работа с пропущенными значениями
Создание таблицы частот для нескольких столбцов
Упражнения
Заключение и повторение материала
Дополнительные ресурсы