Data Analysis

산점도 그래프 scatterplot

김심슨 2025. 5. 26. 17:21

두 변수 간의 관계를 눈으로 보여주는 가장 기본적인 그래프 

sns.scatterplot(data=mpg, x='displ', y='hwy') #배기량, 고속도로 연비

=> 배기량이 커질수록 연비가 낮아지는 경향이 있는가? 

=> displ (배기량) 이 낮을수록 hwy (연비) 가 낮아지는 경향이 있다.

1. 축 범위 제한하기 

왜 사용하나? : 이상치가 너무 퍼져있으면 패턴이 잘 안보이기 때문에 관심 구간만 보기 위해 사용 

sns.scatterplot(data=mpg, x='displ', y='hwy').set(xlim = [3,6], ylim = [10,30])

=> x축(배기량)을 3~6 사이로만 표시, y축(연비)을 10~30 사이로 제한 

내 눈에만 더 퍼져 보이나요

2. 색상으로 분류하기 (hue)

sns.scatterplot(data=mpg, x='displ', y='hwy', hue='drv')  # 구동방식별 색상

- hue='drv' : 범주형 변수에 따라 색상을 다르게 

- 각 점들이 어떤 그룹(4륜, 전륜, 후륜)에 속하는지 시각적으로 구분 가능 

예 ) 성별별 키/몸무게 차이, 고객 등급별 구매량 등 

3. 그래프 품질 설정 

plt.rcParams.update({'figure.dpi': 150})            # 해상도 업
plt.rcParams.update({'figure.figsize': [8, 6]})      # 크기 키움
plt.rcParams.update({'font.size': '15'})             # 글자 큼직하게
plt.rcParams.update({'font.family': 'Malgun Gothic'})# 한글 깨짐 방지

- figure.dpi : 해상도 (기본 72)

- figure.figsize : 가로 세로 크기 키우기 (기본 6 : 4)

- font.size : 글자 크기 (기본값 10)

- font.family : 글꼴 (기본 sans-serif)