Относительные и Абсолютные Частоты в Python и Pandas

В этой статье вы узнаете, как рассчитать относительные и абсолютные частоты с помощью чистого Python, а также при помощи популярной библиотеки для анализа данных Pandas.

Относительная частота показывает, насколько часто определённое значение встречается в наборе данных, по сравнению со всем количеством значений в этом наборе.

Абсолютная частота, в свою очередь, просто указывает, сколько раз определённое значение встречается в наборе данных.

Краткий ответ: Вычисление абсолютных и относительных частот в Pandas Если вы не хотите углубляться в детали реализации, просто воспользуйтесь методом .value_counts() из библиотеки Pandas. Он возвращает массив абсолютных частот. Чтобы получить относительные частоты, используйте параметр normalize=True:

import pandas as pd
df = pd.DataFrame(data = ['apple', 'apple', 'banana', 'orange', 'apple', 'apple', 'banana', 'banana', 'orange', 'banana', 'apple'], columns=['Fruit'])

absolute_frequencies = df['Fruit'].value_counts()
relative_frequencies = df['Fruit'].value_counts(normalize=True)

Содержание

Загрузка данных и набора данных

Начнём с загрузки данных. Поскольку вы будете учиться рассчитывать относительные и абсолютные частоты как в чистом Python, так и в Pandas, мы загрузим данные как простой список, так и фрейм данных Pandas. Загрузим их прямо сейчас:

# Создание списка данных
fruits = ['apple', 'apple', 'banana', 'orange', 'apple', 'apple', 'banana', 'banana', 'orange', 'banana', 'apple']

# Если используется Python, создать DataFrame с именем df
import pandas as pd
df = pd.DataFrame(data=fruits, columns=['Fruit'])

print(df.head())

# Возвращает
#     Fruit
# 0   apple
# 1   apple
# 2  banana
# 3  orange
# 4   apple

Итак, у нас есть список, содержащий множество различных строк, а также фрейм данных с одним столбцом, названным Fruit.

Как рассчитать абсолютные частоты с помощью Python

Абсолютная частота просто измеряет, насколько часто встречается определённое значение.

Рассчитайте абсолютные частоты с помощью словаря Самый простой способ — использовать словарь и пройти по списку:

Инициализируйте пустой словарь.
Пройдитесь в цикле по списку.
Если элемент списка уже есть в словаре, увеличьте его значение на 1.
Если элемент отсутствует в словаре, установите его значение равным 1.

fruits = ['apple', 'apple', 'banana', 'orange', 'apple', 'apple', 'banana', 'banana', 'orange', 'banana', 'apple']

absolute_frequencies = dict()
for fruit in fruits:
    if fruit in absolute_frequencies.keys():
        absolute_frequencies[fruit] += 1
    else:
        absolute_frequencies[fruit] = 1

print(absolute_frequencies)

Аналогично, можно использовать генератор словаря и записать:

absolute_frequencies_dict = {fruit:fruits.count(fruit) for fruit in fruits}

Это возвращает точно такой же результат, но с гораздо более коротким синтаксисом (который, к сожалению, немного сложнее для чтения). Если вы хотите подробнее узнать о генераторах словарей, ознакомьтесь с моей подробной статьей с множеством примеров здесь.

Расчёт абсолютных частот с помощью генератора словаря

Как и в предыдущем примере, мы можем использовать генератор списка, чтобы создать список пар значений — элементов и их частот. Если вы хотите узнать больше о генераторах списков, прочитайте мою статью здесь или посмотрите видео на YouTube:

Давайте посмотрим, как мы можем создать генератор списка для нашего списка абсолютных частот. Для этого нам нужно найти элементы, по которым можно пройти. Создадим множество элементов, поскольку оно оставит только уникальные значения из списка. Затем мы подсчитаем количество каждого элемента множества в исходном списке и добавим это значение в кортеж:

fruits = ['apple', 'apple', 'banana', 'orange', 'apple', 'apple', 'banana', 'banana', 'orange', 'banana', 'apple']

absolute_frequencies_list_comprehension = [(fruit, fruits.count(fruit)) for fruit in set(fruits)]
print(absolute_frequencies_list_comprehension)

Как рассчитать относительные частоты с помощью Python

Относительная частота измеряет, насколько часто определённое значение встречается в наборе данных относительно общего количества значений в этом наборе.

Чтобы рассчитать относительные частоты, нам нужно разделить каждую абсолютную частоту на общее количество значений в массиве. Давайте посмотрим, как это можно сделать с помощью каждого из приведённых выше методов.

Количество элементов в списке можно определить с помощью функции len():

num_items = len(fruits)

print(num_items)

# Возвращает
11

Теперь добавим расчёт относительных частот в каждый из наших методов, рассмотренных выше: Использование цикла и словаря для расчёта относительных частот

# Цикл и словарь

relative_frequencies_dict_loop = dict()
for fruit in fruits:
    if fruit in relative_frequencies_dict_loop.keys():
        relative_frequencies_dict_loop[fruit] +=1
    else:
        relative_frequencies_dict_loop[fruit] = 1

for fruit in relative_frequencies_dict_loop.keys():
    relative_frequencies_dict_loop[fruit] /= len(fruits)

print(relative_frequencies_dict_loop)

# Возвращает
# {'apple': 0.45454545454545453, 'banana': 0.36363636363636365, 'orange': 0.18181818181818182}

Это означает, что строка 'apple' составляет 45% от всех значений в списке.

Использование генератора словаря для расчёта относительных частот

Давайте посмотрим, как сделать это с помощью генератора словаря:

relative_frequencies_dict_comprehension = {fruit:fruits.count(fruit)/len(fruits) for fruit in fruits}

print(relative_frequencies_dict_comprehension)

# Возвращает
# {'apple': 0.45454545454545453, 'banana': 0.36363636363636365, 'orange': 0.18181818181818182}

Использование генератора списка для расчёта относительных частот

Наконец, давайте рассмотрим, как рассчитать относительные частоты с помощью генератора списка:

relative_frequencies_list_comprehension = [(fruit, fruits.count(fruit) / len(fruits)) for fruit in set(fruits)]

print(relative_frequencies_list_comprehension)

# Возвращает
# [('orange', 0.18181818181818182), ('banana', 0.36363636363636365), ('apple', 0.45454545454545453)]

Как рассчитать абсолютные частоты с помощью Pandas

Библиотека Pandas делает расчёт абсолютных частот очень простым благодаря методу .value_counts(). Давайте посмотрим, как это работает на практике:

import pandas as pd
fruits = ['apple', 'apple', 'banana', 'orange', 'apple', 'apple', 'banana', 'banana', 'orange', 'banana', 'apple']

df = pd.DataFrame(data=fruits, columns=['Fruit'])
print(df['Fruit'].value_counts())

Как рассчитать относительные частоты с помощью Pandas

Чтобы вычислить относительные частоты в Pandas, можно воспользоваться методом .value_counts() и передать параметр normalize=True:

import pandas as pd
fruits = ['apple', 'apple', 'banana', 'orange', 'apple', 'apple', 'banana', 'banana', 'orange', 'banana', 'apple']

df = pd.DataFrame(data=fruits, columns=['Fruit'])
print(df['Fruit'].value_counts(normalize=True))

Заключение

В этой статье вы узнали, как рассчитать абсолютные и относительные частоты с помощью чистого Python и библиотеки Pandas. В частности, вы использовали словари, генераторы списков, а также метод Pandas .value_counts() для расчёта частот.

Чтобы узнать больше о методе .value_counts(), ознакомьтесь с официальной документацией.

ПредыдущаяPandas get_dummies (One-Hot кодирование), объяснение СледующаяФинансовый год – Определение финансового года в Pandas

Последнее обновление 10 месяцев назад

hashtagЗагрузка данных и набора данных

hashtagКак рассчитать абсолютные частоты с помощью Python

hashtagРасчёт абсолютных частот с помощью генератора словаря

hashtagКак рассчитать относительные частоты с помощью Python

hashtagИспользование генератора словаря для расчёта относительных частот

hashtagИспользование генератора списка для расчёта относительных частот

hashtagКак рассчитать абсолютные частоты с помощью Pandas

hashtagКак рассчитать относительные частоты с помощью Pandas

hashtagЗаключение