Подсчёт уникальных значений в Pandas
В этом учебном пособии вы узнаете, как использовать Pandas для подсчета уникальных значений. Вы научитесь подсчитывать уникальные значения в столбце, в нескольких столбцах и во всем DataFrame. Умение подсчитывать уникальные значения может иметь важное практическое значение. Например, это можно использовать при тестировании вашего кода. Также это может быть использовано в проектах машинного обучения. Хотите узнать, как найти уникальные значения? Ознакомьтесь с этим методом unique()
К концу этого урока вы узнаете:
Как подсчитать уникальные значения в Pandas, используя метод nunique
Как подсчитать уникальные значения в нескольких столбцах или во всем DataFrame
Как подсчитать частоту уникального значения в Pandas
Оглавление
Загрузка образца DataFrame Pandas
Чтобы следовать за этим руководством, скопируйте и вставьте приведенный ниже код для загрузки образца DataFrame в Pandas. Если вы работаете со своими данными, не стесняйтесь использовать их. В таком случае ваши результаты, конечно, будут отличаться. Давайте начнем:
В следующих разделах вы узнаете, как подсчитать уникальные значения в DataFrame.
Как подсчитать уникальные значения в столбце DataFrame Pandas с помощью nunique
В этом разделе вы узнаете, как использовать метод nunique
для подсчета количества уникальных значений в столбце DataFrame. Метод принимает два параметра:
axis=
для подсчета уникальных значений в столбцах или строкахdropna=
учитывать ли в подсчётах пропущенные значения или нет
Давайте посмотрим, как мы можем использовать метод .nunique()
для подсчета количества уникальных значений в столбце 'Name':
Мы видим, что метод возвращает 7
, что означает наличие семи уникальных значений в этой колонке. В следующем разделе вы узнаете, как подсчитать уникальные значения в нескольких колонках DataFrame.
Как подсчитать уникальные значения в нескольких столбцах DataFrame Pandas, используя nunique
Аналогично приведенному выше примеру, вы можете применить метод .nunique()
к нескольким столбцам. Для этого просто выберите нужные вам столбцы, используя двойные квадратные скобки.
При применении метода к более чем одному столбцу возвращается объект Pandas Series. Давайте рассмотрим, как это работает:
Поскольку Pandas Series возвращается, мы можем получить доступ к подсчету уникальных значений, индексируя эту серию. Давайте посмотрим, как это работает:
Как подсчитать уникальные значения в таблице данных Pandas с помощью nunique
Метод .nunique()
также может быть применен ко всему DataFrame. Аналогично подсчету уникальных значений в нескольких столбцах DataFrame, метод вернет серию Pandas с количеством уникальных значений. Давайте посмотрим, как это работает при применении к целому DataFrame:
В заключительном разделе этого учебного пособия вы научитесь подсчитывать частоту уникальных значений в DataFrame.
Как подсчитать частоту уникальных значений в Pandas
В этом разделе вы научитесь подсчитывать частоту уникальных значений в DataFrame. Это позволит вам понять распределение значений по столбцу.
Чтобы сделать это, мы можем использовать функцию .value_counts()
, которая генерирует таблицу частот для столбца. Давайте посмотрим, как мы можем подсчитать уникальные значения в нашем столбце 'Gender'
Мы можем видеть уникальные значения как индексы нашего ряда, где значения соответствуют количеству раз, которое каждое значение встречается в столбце. Например, 'Мужской'
встречается четыре раза.
Заключение
В этом уроке вы научились подсчитывать количество уникальных значений в столбце DataFrame. Сначала вы узнали, как использовать метод .nunique()
для подсчета числа уникальных значений в столбце Pandas, нескольких столбцах, а также во всем DataFrame. Также вы научились подсчитывать частоту уникальных значений в столбце Pandas DataFrame с помощью метода .value_counts().
Дополнительные ресурсы
Чтобы узнать больше о связанных темах, ознакомьтесь с обучающими материалами ниже:
Pandas: подсчет уникальных значений в объекте GroupBy
Python: подсчет уникальных значений в списке (4 способа)
Все способы получить уникальные значения Pandas
Подведение итогов и анализ таблицы данных Pandas
Last updated