공공데이터 활용 서울시 상권 분석하기 2 - 선행연구, 데이터 수집 및 확인

2024. 6. 23. 16:03개발로그/공공데이터 서울시 상권 분석

 

1편의 내용과 이어집니다!

 

공공데이터 활용 서울시 상권 분석하기 1 - 프로젝트 소개

데이터 과학 시간 팀프로젝트로 공공데이터를 활용하여 서울시의 상권을 분석하는 프로젝트를 진행했습니다.블로그에 글을 쓰며 프로젝트를 어떻게 진행했는지 공유해보고자 합니다. 프로젝

binarylove.tistory.com

 

 


 

0. 선행연구

이번 프로젝트는 '서울시 발달상권과 골목상권의 일반음식점 생존특성 연구' 라는 논문의 일부분을 참고했어요.

상권은 골목상권과 발달상권으로 구분할 수 있는데요, 골목상권은 주택가에서 흔히 볼 수 있는 작은 상권을 의미하고, 발달상권은 강남역, 홍대와 같이 대로변에 위치한 큰 상권을 의미한다고 해요.

논문에서는 상권의 종류에 따라 생존율을 높이기 위해서는 다른 전략을 취해야 한다고 말했습니다.

 

 

호오... 아직은 감이 잘 안오시죠?

그래도 확실한 것은, 일단 골목상권/발달상권을 구분해야 한다는 거에요.

그리고 해당 상권에 얼마나 많은 점포가 밀집되어있는지, 다양성은 높은지 낮은지 등을 확인해봐야겠네요!

 


 

1. 데이터 수집

데이터 분석을 진행하기 위해 먼저 데이터 수집을 진행하겠습니다!

 

이번 프로젝트에서는 서울시 상권분석 서비스에서 제공하는 데이터를 활용했습니다.

 

1. 데이터가 행정동을 기준으로 나누어져있고

2. 상권분석에 초점을 맞추어 데이터를 조사했기 때문에

데이터 간의 연계가 매우 편리할 것이라고 생각했어요.

 

프로젝트에는 총 4개의 데이터가 사용되었습니다.

 

1. 서울시 상권분석서비스(상주인구-행정동)

 

열린데이터광장 메인

데이터분류,데이터검색,데이터활용

data.seoul.go.kr

2. 서울시 상권분석서비스(상권변화지표-행정동)

 

열린데이터광장 메인

데이터분류,데이터검색,데이터활용

data.seoul.go.kr

3. 서울시 상권분석서비스(점포-행정동)

 

열린데이터광장 메인

데이터분류,데이터검색,데이터활용

data.seoul.go.kr

4. 서울시 상권분석서비스(아파트-상권)

 

열린데이터광장 메인

데이터분류,데이터검색,데이터활용

data.seoul.go.kr

 

1번과 4번 데이터를 이용해 골목상권 / 발달상권을 구분하고,

2번과 3번 데이터를 이용해 행정동 별 상권 구성을 파악해보려고 해요!

 


 

2. 데이터 확인

데이터를 살펴볼까요?

 

info() 함수를 이용하면 데이터의 전체적인 구성을 알 수 있어요.

import pandas as pd

# 파일 경로 정의
file_path = '서울시 상권분석서비스(상주인구-행정동).csv'

# CSV 파일 읽기
df = pd.read_csv(file_path, encoding='euc-kr')

# 데이터 프레임 정보 출력
df.info()

상주인구 데이터셋에는 column이 26개나 있네요!

 

head() 함수를 이용하면 전체 데이터의 앞 부분을 확인할 수 있어요.

df.head()

음.. 판다스 함수를 이용해서 보는 것도 좋지만, 뭔가 아쉽습니다. 엑셀을 켜고 직접 하나하나 확인하는 것이 저는 더 편하더라구요.

엑셀에서 데이터를 확인해봅시다!

 

2-1. 데이터의 유용성 판단

상권변화재표-행정동 파일을 한 번 열어보겠습니다.

엑셀에서 csv 파일을 연 다음 데이터 → 필터를 클릭하면

 

이런 식으로 데이터를 정렬해서 보거나 필터 설정을 할 수 있어요.

 

기준_년분기_코드 값을 오름차순으로 정렬해서 데이터를 살펴보니,

 

서울_운영_영업_개월_평균 데이터와 서울_폐업_영업_개월_평균 데이터가 행정동에 상관없이 모두 일치하는 것을 확인할 수 있었습니다.

해당 년분기 서울 전체에 대한 영업 개월 평균을 나타낸 값이기 때문인데요, 행정동이 달라도 동일한 값을 나타내기 때문에 데이터 분석 과정에서 서울_운영_영업_개월_평균 데이터와 서울_폐업_영업_개월_평균 데이터는 사용하지 않기로 결정했습니다!

 

이번에는 점포-행정동 데이터를 한번 살펴보겠습니다.

1행의 데이터를 보시면 폐업 점포 수가 2개 밖에 없는데도 폐업률은 200이라는 값에 달하는데요..! 개업 점포 수 또한 1개 밖에 없음에도 불구하고 100이라는 값을 나타내고 있습니다. 기존 점포 수가 1개이기 때문입니다.

 

그렇다면 점포 수가 많은 경우의 데이터는 어떻게 나올까요?

점포 수를 내림차순으로 해놓고 데이터를 봤을 때,  무려 215개의 폐업 점포 수가 있는 경우에도 폐업률은 3에 그쳤습니다.

개업 점포수가 10개인데도 개업율은 0으로 나타나있네요.

 

이를 통해 개업율과 폐업률은 기존에 존재하는 점포 수에 매우 큰 영향을 받는다는 것을 알 수 있었고, 그렇기 때문에 단순히 개업율과 폐업률을 이용해 상권의 유불리함을 판단하기에는 부적절하다는 판단을 했습니다.

개업_율 데이터와 폐업_률 데이터도 사용하지 않기로 결정!

 

2-2. 데이터 산출식 도출

점포-행정동 데이터를 보다보면 점포_수, 유사_업종_점포_수, 프랜차이즈_점포_수 라는 피처가 있는 것을 알 수 있습니다. 사실 데이터를 확인하는 과정에서 이 세 피처 간의 상관관계를 찾는 것에 애를 먹었어요.

'유사 업종 점포가 뭐지? 점포 수에 프랜차이즈가 포함되어 있는건가?'

그렇게 계속 표를 보다보니, 한가지 식을 도출해낼 수 있었습니다!

 

유사_업종_점포_수 = 점포_수 + 프랜차이즈_점포_수

 

따라서 점포 수는 프랜차이즈가 아닌 점포 수를 의미한다는 것도 알게 되었습니다.

이후 correlation을 구할 때, 유사 업종 점포 수와 프랜차이즈 점포 수 간의 상관 관계가 높다면 그 상권의 대부분은 프랜차이즈로 구성되어 있다는 것을 알 수 있겠네요!

 


 

 

헉헉... 데이터 확인만 했는데도 벌써 기운이 다 빠지네요..!

이제 확인한 데이터들을 가지고 본격적인 분석을 진행해봐야겠죠?

다음 글은 분석을 하기 위해 어떤 전처리 과정을 거쳤는지에 대해 알아보겠습니다.

 

구독하기를 누르시면 다음 글이 발행될 때 빠르게 확인하실 수 있습니다!

다음 글에서 뵙겠습니다~!