Диаграмма рассеяния в Pandas: Как создать диаграмму рассеяния в Pandas
В этом руководстве вы научитесь использовать Pandas для создания точечных диаграмм. В действительности Pandas использует Matplotlib, что может сделать настройку вашего графика знакомой задачей. Pandas позволяет настраивать точечную диаграмму, изменяя цвета, добавляя заголовки и многое другое. В последних версиях Pandas добавлена возможность использования различных движков для построения графиков. В этом руководстве мы рассмотрим использование Matplotlib по умолчанию, хотя большая часть руководства может применяться и к другим движкам.
Визуализация данных — важный шаг для определения направления вашего анализа. Во многих случаях рассмотрение данных через визуализацию помогает лучше понять их распределение.
К концу этого учебного курса вы узнаете:
Загрузка образца DataFrame в Pandas
Как создать диаграмму разброса
Как настроить цвета на точечной диаграмме
Как добавить заголовки на точечную диаграмму
Как изменить размер точек на точечной диаграмме
Как изменить цвета оттенков на диаграммах рассеяния Pandas
Содержание
Загрузка образца DataFrame Pandas
Чтобы следовать этому руководству шаг за шагом, я предоставил пример набора данных, который вы можете загрузить в Pandas DataFrame. Вы также можете использовать свои собственные данные, однако ваши результаты, конечно, будут отличаться.
В коде выше мы импортировали библиотеки Pandas и pyplot. Затем мы использовали функцию Pandas .read_csv()
для загрузки набора данных и просмотрели первые пять строк с помощью функции Pandas .head()
.
Чтобы создать диаграмму рассеяния в Pandas, мы можем применить метод .plot()
к нашему DataFrame. Эта функция позволяет задать параметры x
и y
, а также указать kind
создаваемой диаграммы. Поскольку Pandas заимствует многие вещи из Matplotlib, синтаксис будет довольно знакомым.
Давайте посмотрим, как выглядит функция
Некоторые основные параметры функции перечислены ниже, хотя на самом деле их гораздо больше. На протяжении всего урока мы рассмотрим все эти параметры.
Как построить точечную диаграмму в Pandas
Давайте посмотрим, как мы можем создать наш первый диаграмму рассеивания Pandas с использованием функции
Это генерирует следующее изображение:
Настройка цветов на точечной диаграмме в Pandas
Pandas позволяет легко настраивать цвет точек на вашем графике. Мы можем сделать это с помощью параметра c=
, который позволяет передавать имя цвета или его значение в формате hex.
Давайте посмотрим, как мы можем использовать цвет 'cornflowerblue'
в точках нашего диаграммы рассеяния:
Этот возвращает следующее изображение:
Добавьте заголовки к своей диаграмме рассеяния Pandas
Pandas позволяет легко добавлять заголовки и метки осей к вашему диаграмм рассеяния. Для этого можно использовать следующие параметры:
title=
принимает строку и устанавливает заголовокxlabel=
принимает строку и задает заголовок оси xylabel=
принимает строку и задает заголовок ярлыка по оси y
Давайте дадим нашей диаграмме осмысленные заголовки, используя вышеуказанные параметры:
Это возвращает следующее изображение:
Измените размер точек на диаграмме рассеяния Pandas
Одним из значимых изменений, которые мы можем сделать, является добавление размеров к нашему скаттерплоту. Для этого мы можем передать либо целое число, которое представляет размер точек, которые мы хотим использовать. В качестве альтернативы мы можем передать название столбца, который определяет размер точек.
Мы можем сделать это, используя параметр s=
. Чтобы указать колонку, нам нужно использовать числовую колонку. Мы можем использовать функцию Pandas .map()
, чтобы преобразовать наш столбец 'Label'
в числовой столбец.
Это возвращает следующее изображение:
Добавьте несколько цветов в диаграмму рассеяния Pandas
Чтобы добавить несколько цветов к диаграмме рассеяния, вы можете добавить несколько графиков на одни и те же оси. Для этого мы можем разделить DataFrame на несколько DataFrames на основе их столбца Label.
Мы можем создать объект Axes при начальном построении графика и затем просто добавлять к этому объекту в последующих вызовах.
Добавив параметр label=
, мы можем автоматически создать легенду для нашего графика. Код выше возвращает изображение ниже:
Заключение
В этом руководстве вы узнали, как использовать Pandas для создания диаграммы рассеяния. Вы узнали, как использовать функцию .plot()
для создания базовой диаграммы рассеяния. Затем вы узнали, как настраивать цвет диаграммы, добавлять заголовки и метки осей, изменять размер точек и добавлять несколько разных меток данных.
Дополнительные ресурсы
Чтобы узнать больше по смежным темам, ознакомьтесь с приведенными ниже руководствами:
Seaborn на Python для визуализации данных
Диаграммы рассеяния Matplotlib – узнайте все, что вам нужно знать
Last updated