Pandas Scatter Plot: Как создать диаграмму рассеяния в Pandas
Last updated
Last updated
В этом руководстве вы научитесь использовать Pandas для создания точечной диаграммы. В основе своей Pandas , что может сделать настройку вашей диаграммы знакомым опытом. Pandas позволяет настраивать вашу точечную диаграмму, изменяя цвета, добавляя заголовки и многое другое. В более новых версиях Pandas появилась возможность использовать разные бэкенды для визуализации данных. В этом руководстве мы исследуем бэкенд Matplotlib по умолчанию, хотя большая часть руководства может быть распространена и на другие бэкенды.
Способность легко визуализировать ваши данные является важным шагом в определении направления вашего анализа. Во многих случаях, визуализация данных может иметь важные преимущества для понимания распределения ваших данных.
К концу этого урока вы узнаете:
Загрузка образца DataFrame Pandas
Как построить точечную диаграмму
Как настроить цвета на точечной диаграмме
Как добавить заголовки на точечную диаграмму
Как изменить размер точек на точечной диаграмме
Как изменить цвета оттенков на диаграммах рассеяния Pandas
Оглавление
Чтобы следовать этому учебнику построчно, я предоставил пример набора данных, который вы можете загрузить в DataFrame Pandas. Не стесняйтесь использовать свои собственные данные, хотя ваши результаты, конечно, будут выглядеть иначе.
В приведенном выше коде мы импортировали библиотеки Pandas и pyplot. Затем мы использовали функцию .read_csv()
библиотеки Pandas для загрузки набора данных и исследовали первые пять строк с помощью функции .head()
библиотеки Pandas.
Чтобы создать диаграмму рассеивания в Pandas, мы можем применить метод .plot()
к нашему DataFrame. Эта функция позволяет передавать параметры x
и y
, а также указывать kind
диаграммы, которую мы хотим создать. Поскольку Pandas заимствует многое у Matplotlib, синтаксис покажется довольно знакомым.
Давайте посмотрим, как выглядит функция
В функции есть гораздо больше параметров, но эти представляют собой большинство ключевых параметров, о которых стоит знать. Мы будем изучать эти параметры в течение всего учебного пособия.
Давайте посмотрим, как мы можем создать наш первый диаграмму рассеяния в Pandas, используя функцию .plot()
Pandas упрощает настройку цвета точек на вашем графике. Мы можем сделать это, используя параметр c=
, который позволяет передать название цвета или его шестнадцатеричное значение.
Давайте посмотрим, как мы можем использовать цвет 'cornflowerblue'
в точках нашей диаграммы рассеяния:
Pandas упрощает добавление названий и подписей осей к вашей диаграмме рассеяния. Для этого мы можем использовать следующие параметры:
title=
принимает строку и устанавливает заголовок
xlabel=
принимает строку и устанавливает заголовок для оси X
ylabel=
принимает строку и устанавливает заголовок оси Y
Давайте добавим нашему графику значимые заголовки, используя приведенные выше параметры:
Одно из значимых изменений, которые мы можем внести, заключается в добавлении размеров к нашей точечной диаграмме. Для этого мы можем передать целое число, которое представляет собой размер точек, который мы хотим использовать. В качестве альтернативы, мы можем передать название столбца, которое определяет размер точек.
Мы можем создать объект Axes при первом построении графика и затем просто добавлять к нему в последующих вызовах. Чтобы добавить несколько цветов в диаграмму рассеяния, вы можете добавить несколько графиков к тем же осям. Для этого мы можем разделить DataFrame на несколько DataFrame на основе их столбца Label.
Добавив параметр label=
, мы можем автоматически сгенерировать легенду для нашего графика. Приведенный выше код возвращает изображение ниже:
В этом уроке вы научились использовать Pandas для создания диаграммы рассеяния. Вы узнали, как использовать функцию .plot()
для создания базовой диаграммы рассеяния. Затем вы научились настраивать цвет диаграммы, добавлять заголовки и метки осей, изменять размер точек и добавлять различные метки данных.
Чтобы узнать больше о связанных темах, ознакомьтесь с обучающими материалами ниже:
Построение графиков на Python с помощью Matplotlib
Seaborn на Python для визуализации данных
Построение гистограммы в Python с помощью Matplotlib и Pandas
Мы можем сделать это, используя параметр s=
. Чтобы передать в него столбец, нам нужен числовой столбец. Мы можем использовать Pandas для преобразования нашего столбца 'Label'
в числовой столбец.
– узнайте все, что вам нужно знать