Pandas Scatter Plot: Как создать диаграмму рассеяния в Pandas
В этом руководстве вы научитесь использовать Pandas для создания точечной диаграммы. В основе своей Pandas использует Matplotlib, что может сделать настройку вашей диаграммы знакомым опытом. Pandas позволяет настраивать вашу точечную диаграмму, изменяя цвета, добавляя заголовки и многое другое. В более новых версиях Pandas появилась возможность использовать разные бэкенды для визуализации данных. В этом руководстве мы исследуем бэкенд Matplotlib по умолчанию, хотя большая часть руководства может быть распространена и на другие бэкенды.
Способность легко визуализировать ваши данные является важным шагом в определении направления вашего анализа. Во многих случаях, визуализация данных может иметь важные преимущества для понимания распределения ваших данных.
К концу этого урока вы узнаете:
Загрузка образца DataFrame Pandas
Как построить точечную диаграмму
Как настроить цвета на точечной диаграмме
Как добавить заголовки на точечную диаграмму
Как изменить размер точек на точечной диаграмме
Как изменить цвета оттенков на диаграммах рассеяния Pandas
Оглавление
Загрузка образца DataFrame Pandas
Чтобы следовать этому учебнику построчно, я предоставил пример набора данных, который вы можете загрузить в DataFrame Pandas. Не стесняйтесь использовать свои собственные данные, хотя ваши результаты, конечно, будут выглядеть иначе.
В приведенном выше коде мы импортировали библиотеки Pandas и pyplot. Затем мы использовали функцию .read_csv()
библиотеки Pandas для загрузки набора данных и исследовали первые пять строк с помощью функции .head()
библиотеки Pandas.
Как построить точечную диаграмму в Pandas
Чтобы создать диаграмму рассеивания в Pandas, мы можем применить метод .plot()
к нашему DataFrame. Эта функция позволяет передавать параметры x
и y
, а также указывать kind
диаграммы, которую мы хотим создать. Поскольку Pandas заимствует многое у Matplotlib, синтаксис покажется довольно знакомым.
Давайте посмотрим, как выглядит функция
В функции есть гораздо больше параметров, но эти представляют собой большинство ключевых параметров, о которых стоит знать. Мы будем изучать эти параметры в течение всего учебного пособия.
Давайте посмотрим, как мы можем создать наш первый диаграмму рассеяния в Pandas, используя функцию .plot()
Настройка цветов на точечной диаграмме в Pandas
Pandas упрощает настройку цвета точек на вашем графике. Мы можем сделать это, используя параметр c=
, который позволяет передать название цвета или его шестнадцатеричное значение.
Давайте посмотрим, как мы можем использовать цвет 'cornflowerblue'
в точках нашей диаграммы рассеяния:
Добавьте заголовки к своей диаграмме рассеяния Pandas
Pandas упрощает добавление названий и подписей осей к вашей диаграмме рассеяния. Для этого мы можем использовать следующие параметры:
title=
принимает строку и устанавливает заголовокxlabel=
принимает строку и устанавливает заголовок для оси Xylabel=
принимает строку и устанавливает заголовок оси Y
Давайте добавим нашему графику значимые заголовки, используя приведенные выше параметры:
Измените размер точек на диаграмме рассеяния Pandas
Одно из значимых изменений, которые мы можем внести, заключается в добавлении размеров к нашей точечной диаграмме. Для этого мы можем передать целое число, которое представляет собой размер точек, который мы хотим использовать. В качестве альтернативы, мы можем передать название столбца, которое определяет размер точек.
Мы можем сделать это, используя параметр s=
. Чтобы передать в него столбец, нам нужен числовой столбец. Мы можем использовать функцию .map()
Pandas для преобразования нашего столбца 'Label'
в числовой столбец.
Добавьте несколько цветов в диаграмму рассеяния Pandas
Мы можем создать объект Axes при первом построении графика и затем просто добавлять к нему в последующих вызовах. Чтобы добавить несколько цветов в диаграмму рассеяния, вы можете добавить несколько графиков к тем же осям. Для этого мы можем разделить DataFrame на несколько DataFrame на основе их столбца Label.
Добавив параметр label=
, мы можем автоматически сгенерировать легенду для нашего графика. Приведенный выше код возвращает изображение ниже:
Заключение
В этом уроке вы научились использовать Pandas для создания диаграммы рассеяния. Вы узнали, как использовать функцию .plot()
для создания базовой диаграммы рассеяния. Затем вы научились настраивать цвет диаграммы, добавлять заголовки и метки осей, изменять размер точек и добавлять различные метки данных.
Дополнительные ресурсы
Чтобы узнать больше о связанных темах, ознакомьтесь с обучающими материалами ниже:
Построение графиков на Python с помощью Matplotlib
Seaborn на Python для визуализации данных
Построение гистограммы в Python с помощью Matplotlib и Pandas
Диаграммы рассеяния Matplotlib – узнайте все, что вам нужно знать
Last updated