월간 세미나
home
패키지
home

김민주

스타트업 Co-Founder 출신 주니어 데이터 분석가
About: 파이썬으로 데이터 분석을 하고 있는 김민주입니다. 데이터를 통해 사람들의 일상을 들여다보는 것에 관심이 있습니다. <한국영화 흥행성적 분석>, <식습관 스몰데이터 분석을 통한 장트러블 극복기> 등 제 작업물을 보시려면 아래에 있는 GitHub 페이지를 봐주세요.
스타트업을 창업하고 2 개의 서비스를 런칭해 운영하면서 당장 급하지 않은 일들이 장기적인 관점에서는 더욱 중요할 때가 많다는 것을 배웠습니다. 오퍼레이션 업무를 하면서 데이터를 들여다 보는 일의 필요성을 절감하여 데이터를 제대로 이해하고 활용하고자 데이터 분석가 양성과정 <데잇걸즈 3기> 프로그램을 수료하였습니다.
데이터에서 인사이트를 얻으려면 결국 비즈니스적 해석이 필요합니다. 오퍼레이션 업무를 통해 얻은 비즈니스 전반에 대한 이해도를 바탕으로 데이터 분석을 통해 유의미한 인사이트를 도출해낼 수 있습니다.
일을 하면서 발견한 저의 재능은 아이디어를 현실로 구체화하는 힘입니다. 새로운 지식을 빠르게 습득하고, 배운 내용을 바로 바로 업무에 적용하는 것을 즐깁니다. 데이터 분석가로서는 주니어 레벨이지만 스타트업을 창업하고 3 년간 서비스를 운영해 온 경험을 바탕으로 조직 내에서 빠르게 성장할 자신이 있습니다.
팀원들과 커뮤니케이션이 많은 환경에서 자율적으로 일할 때 최대한의 역량을 발휘합니다. 팀원 간에 활발히 소통하고 개인의 성장에 대한 동기부여를 중요하게 여기는 크몽에서 좋은 동료들과 함께 성장하고 싶습니다.
GitHub: kim4pb
LinkedIn: minjukim-analyst
e-mail: kim4pb@gmail.com

경력 요약

2016.05 ~ 2019.07
냅스터 Napster Corp.
청년 1인가구 공유주거 스타트업 ( 입주민 수 기준, 매년 400 % 성장 )
2018.10 언더독스 주식회사에 인수합병 ( 인수합병 이후, 900 % 성장 )
Co-Founder / COO

교육

2010.03 ~ 2016.08
성균관대학교 기계공학부 졸업
3.5 / 4.5
2013.08 ~ 2013.12
Fachhochschule Vorarlberg
오스트리아 교환학생 Mechatronics 전공

기술 역량 Main Sub

Language
Python Java Script Ruby Matlab
Analytic Tool
Pandas Excel Google Spreadsheet
Visualization
Matplotlib Seaborn Plotly Tableau
DataBase
MySQL
Code Editor
Jupyter Notebook Zeppeline Notebook Visual Studio Code Pycharm
Git
Git GitHub Sourcetree
OS
Mac Windows
Cooperation Tool
Google Drive Notion Slack Jira Jandi
ETC
Adobe Illustrator Adobe Photoshop

기술 교육

2019.07 ~ 2019.12
SW 여성인재 교육사업 <데잇걸즈 3기>
데이터 분석가 양성과정 ( 4:1 경쟁 선발 )
회귀분석, 생존분석, 차원축소, 시계열분석 등 기초 통계
MySQL 을 활용한 데이터 추출
Pandas, Statsmodel, Sklearn 등 분석 관련 Python 라이브러리
Tree Method, Confusion Matrix, Hyperparameter Tuning 등 머신러닝 기초
Matplotlib, Seaborn, Plotly 등 시각화 라이브러리
과학기술정보통신부
한국정보화진흥원
2019.09
'처음 시작하는 사용자를 위한 Tableau 초급교육' 수강
데이터 베이스 연결, 회귀분석 및 시계열 그래프, 대시보드 구축
(주)포비스티앤씨
2019.05 ~ 2019.07
<프로그래밍 입문반 2기> 수료
Python 기초 문법 및 알고리즘, 테스트 주도 개발
DS School
2018.11 ~ 2018.12
<실전 데이터 분석반 2기> 수료
Pandas 및 Matplotlib, Seaborn 등 시각화 라이브러리를 이용하여 실제 기업 데이터 분석
DS School
2018.08 ~ 2018.09
<데이터 분석 입문반 47기> 수료
Pandas 를 활용하여 Kaggle 데이터셋 기본적인 분석
DS School
2015.09 ~ 2015.12
<프로그래밍 기초와 실습>
Python 기초 및 Django 를 활용한 웹 배포 프로젝트 ( A+ )
4학년 2학기
2011.03 ~ 2011.06
<공학 컴퓨터 프로그래밍>
Matlab 을 활용한 칼로리 계산기 구현 프로젝트 ( 평가 1위 )
2학년 1학기

프로젝트 요약

2019.10 ~ 진행중
콘텐츠 소비 히스토리 분석
Tool: Pandas Matplotlib Seaborn ElasticSearch Tensorflow
2004 년부터 15 년간 본 영화, 드라마, 책 데이터를 분석
개인 프로젝트
2019.10 ~ 2019.12
한국영화 박스오피스 흥행성적 분석
Tool: OPEN API Pandas Matplotlib Seaborn Statsmodel Sklearn
( 2019 여성가족부 '청년참여 플랫폼' 문화혁신 공모 사업 선정 )
성평등 지수(F-rated) 와 박스오피스 데이터 관계 분석
영화 규모별 클러스터를 나눈 후 각 클러스터 내에서 흥행성적에 영향을 미치는 요소 분석
5인팀 @데잇걸즈
2019.10 ~ 2019.12
김해시 화재예측 모델 개발
Tool: Pandas Matplotlib Seaborn Statsmodel Sklearn Plotly
건물 데이터, 날씨 데이터 등을 통해 해당 건물의 화재발생여부를 예측
3인팀 @데잇걸즈
2019.08 ~ 2019.10
식습관 스몰데이터 분석을 통한 장트러블 극복기
Tool: Google Spreadsheet Pandas Excel Matplotlib Seaborn
( 2019 데이터야놀자 컨퍼런스 이그나이트톡 발표 )
스몰데이터를 수집하여 식습관과 배변활동 간의 관계 분석
6인팀 @데잇걸즈

어학능력

English
비즈니스 업무 가능 ( 원문 자료 서칭, 공식 문서 작성 가능, 비즈니스 미팅 가능 )
2014. 04 TOEIC 880
2014. 09 OPIC IH Intermediate High
Japanese
비즈니스 업무 가능 ( 비즈니스 미팅 가능 )

수상/장학금

2014.12
학부 졸업논문 기계공학부 학술제 은상 수상<전기방사식 공정을 이용한 음극의 구조 개선이 고체산화물 연료전지의 성능 향상에 미치는 영향>
4인팀 내 역할: 기존 연구결과 논문 서칭, 가설 설정, 실험 수행
성균관대학교 기계공학부
2016.02
2015년도 오거서 장학생 선발
성균관대학교
2014.09
율곡 장학생 선발 ( 4학년 1학기 성적우수 )
성균관대학교
2012.03
율곡 장학생 선발 ( 2학년 2학기 성적우수 )
성균관대학교
2012.03
남천속기 장학생 선발 ( 2학년 2학기 성적우수)
남천속기연구회
2011.03
율곡 장학생 선발 ( 1학년 2학기 성적우수 )
성균관대학교
2010.05
율곡 장학생 선발 ( 입학 성적 우수 )
성균관대학교

Public Speaking

2019.10
이그나이트톡 발표<식습관 스몰데이터 분석을 통한 장트러블 극복기> https://www.slideshare.net/HYEJEONGSONG3/ss-186667922
데이터야놀자 컨퍼런스
2017.12
공유주거 스타트업 COO 로 주거문화 간담회 초청, 발제<우리는 어떻게 살고있나요?-나의 주거경험과 최저주거기준>
고려대 캠퍼스타운

경력 상세 소개

2016.05 ~ 2019.07
냅스터 Napster Corp.
청년 1인가구 공유주거 스타트업 ( 입주민 수 기준, 매년 400 % 성장 )
2018. 10 언더독스 주식회사 ( 현 주식회사 뉴블랙 ) 에 인수합병 ( 인수합병 이후, 900 % 성장 )
Co-Founder / COO
1.
운영 서비스
고시원을 혁신한 마이크로하우스 JUST LIVE justlive.co.kr
셰어하우스 코잠 SHARE HOUSE COzZAM cozzam.kr
2.
담당 업무
공유주거 서비스 2 개 런칭
셰어하우스 코잠 브랜딩
2 년 내 셰어하우스 코잠 11 개 지점 런칭
JUST LIVE 브랜딩 고도화
JUST LIVE 입주민 수 900 % 증가 ( 합병 직후 29 명에서 300 명 규모로 성장 )
18 개 공간 기획 및 디자인
Tool: Excel Google Spreadsheet Planner 5D (인테리어 3D 모델링 프로그램)
셰어하우스 코잠 11 개 지점 공간 기획 및 구성
JUST LIVE 5 개 지점 공간 개선안 도출
복합문화공간 구구카페, 루프탑 코놀룰루 공간 기획 및 인테리어 시공 감리
입주 신청자 1,000 명 확보
Tool: Google Analytics Facebook 광고관리자 Adobe Illustrator Adobe Photoshop
Facebook, Instagram, 네이버 키워드 광고 등 온라인 광고 집행
카드뉴스 등 광고 콘텐츠 제작 및 A/B 테스트
지하철 광고, 고려대 학내 행사 참여 등 오프라인 광고 진행
3 년의 오퍼레이션 경험
Tool: Google Form Google Spreadsheet Excel 자비스(회계 관리 서비스) 효성 CMS (자동이체 관리 서비스)
JUST LIVE, 셰어하우스 코잠 고객관리 시스템 및 매뉴얼 구축
전사 회계 관리 및 시스템 구축
정부 민간 사업 10 건 지원 중 7 건 합격, 지원금 8,300 만원, 대출금 3 억원 확보
3. 퇴사 사유
데이터 분석가 교육을 수강하기 위해 퇴사

주요 성과 Part 1.

1.
셰어하우스 코잠 런칭 2 년 만에 11 호점까지 성장
기숙사 건립이 몇 년 째 무산되어 대학가 주거문제에 대한 문제의식을 공유하고 있던 고려대학교 인근에서 시작하여 셰어하우스 코잠 1 호점을 런칭한지 2 년 만에 11 호점까지 확장함. 지점 운영 및 마케팅 상의 편의를 위해 고려대학교 인근 지역에 집중하여 지점을 확장하였고, 이후 여성전용 셰어하우스로 포지셔닝하여 고려대학교 여학생을 타겟으로 시장을 선점함. 초기에는 공간 확보 및 계약에서부터 공간 디자인, SNS 계정 운영 등 온라인 마케팅, 입주민 입퇴실 관리, 민원 관리까지 모두 경험하면서 비즈니스 전반을 파악함.
2.
셰어하우스 코잠 누적 개인 투자금액 4.9 억원
셰어하우스 공간 조성을 위해 필요한 보증금은 개인 투자금으로 충당했는데, 시작한지 얼마 되지 않은 스타트업을 믿고 투자할 수 있도록 만드는 일이 가장 어려운 일이었음. 투자계약서 작성, 전세권 설정 등 여러가지 안전장치를 마련해 개인투자금액 누적 4.9 억원을 달성함.
3.
팀원 충원 후 셰어하우스 코잠 운영 시스템 보완
셰어하우스 코잠 9 호점 런칭 이후 입주민 규모가 50 명을 넘어가자 창업 멤버 두 명이서 계속 운영을 전담하기는 역부족이라고 판단해 추가 팀원을 영입함. 팀원이 늘면서 서비스적으로는 브랜딩과 운영 시스템을 보완하고, 조직적으로는 조직문화를 구축해나감. 빠르게 성장하면서 동시에 시스템을 만들어 나가는 과정이 쉽지는 않았지만 재미있었음.
"사람 사는 집, 셰어하우스 코잠" 이라는 브랜드 가치를 정하고, 그에 맞춰 매달 진행하는 정기 하우스회의, 간식 이벤트, 오프라인 행사 등을 통해 입주민 커뮤니티 활성화에 힘 씀. 일관된 서비스를 유지하기 위해 톤앤매너 정립.
입주민 관리 시스템 개선, 공과금 정산 시스템 개선, 법적 자문을 통해 입주 계약서 보완.
4.
JUST LIVE 지점 운영 매뉴얼, 시설 관리 매뉴얼, 고객 민원 응대 매뉴얼 구축
고객 관리, 민원응대 업무를 하면서 같은 일의 반복이 너무 많았고, 담당자가 바뀔 때마다 히스토리나 대응방법을 일일이 전달해야하는 문제가 있었음.
담당자가 바뀌어도 일관된 서비스를 유지할 수 있도록 톤앤매너를 정립하고 업무를 효율화하기 위한 상황별 대응 매뉴얼을 구축함.
시간적으로 어려움이 많아 최소한의 인풋으로 작업했지만, 간단한 버전으로라도 매뉴얼을 구축함으로써 결과적으로 개인적으로 뿐만 아니라 팀 전체에서 더 많은 리소스를 아낄 수 있게 됨.
5.
JUST LIVE 고객 민원 아카이빙
민원이 제기되는 경우 이전의 문제상황과 해결방법 히스토리를 찾아 효율적으로 해결하기 위해 아카이빙을 시작함.
민원 아카이빙을 진행하다보니 악성 민원이 반복되어 업무에 지장을 주고 다른 고객의 경험을 낮추는 경우를 발견함. 악성 민원이 계속해서 발생하는 경우 악성고객으로 분류하여 조치를 취하고 반대로 운영에 도움을 주는 고객에게는 할인율을 적용하여 바인딩하는 등 고객관리시스템 구축을 위해 고객 레이블(Black/White)을 시도함.
고객 레이블은 인사이트 도출하지 못함. 아카이빙을 진행한지 오래되지 않아 데이터가 많이 쌓이지 않았고, 수기로 입력하다보니 빠지는 부분이 생기는 문제도 있었고, 적지 않은 민원 내용을 일일이 입력하고 분류하는 일이 추가 업무가 됨. 또한 실제 업무를 진행하는 인원이 직관적으로 파악하는 것보다 나은 정도가 되지 않았음.
민원을 직접 구글폼 등으로 받아서 아카이빙하고, 자연어 처리를 이용해 민원 자동 분류 모델을 만들었다면 도움이 되었을 것으로 생각됨.
6.
JUST LIVE 고객관리 시스템 개선
종이계약서와 구글 스프레드시트, 엑셀파일 등 여기저기 흩어져있던 고객 정보를 한 곳으로 모으고, 고객정보와 계약기간을 입력하면, 현재 입실자만 따로 볼 수 있도록 하고 할인내역 등 고객 특이사항을 기록함. 계약기간과 계약갱신시점을 표시하여 계약 이력을 확인할 수 있도록 하고, 이전 입실자 데이터도 함께 축적함.
이전까지는 계약서를 하나하나 보고, 히스토리를 파악하고, 계좌내역을 확인하고 여러 단계를 거쳐 정산을 해야 했음. 여러 차례에 거쳐 고객관리 시스템을 개선하여 한번에 입금내역을 확인할 수 있게 했고, 자동으로 정산금액을 확인 가능하도록 함.
7.
복합문화공간 구구카페 런칭
커피와 함께 지역 창작자들의 굿즈를 판매하는 복합문화공간으로 브랜딩하고 캠퍼스 내 공부하기 좋은 중저가 브랜드로 포지셔닝함. 10 여팀의 지역 창작자와 위탁 판매 계약을 맺음.
공간 디자인, 공간 조성은 해봤지만 카페 공간은 처음이어서 시행착오를 겪음. 이미 이전 영업장에서 해놓은 것들과 건물 자체의 상황을 고려해서 공간을 디자인하고, 설비가 들어갈 위치와 동선을 짜는 부분이 까다로웠음.
커피전문점이 아닌 만큼 커피머신, 그라인더 등 카페 제조 시설은 편의성과 가격을 중심으로 선택함. 가구 구입 시에는 주거공간을 운영하며 얻은 인사이트를 통해 관리소요를 최소한으로 하는 제품을 선택함.
1 인 카페에서 일했던 경험을 바탕으로 음료 제조, 재고관리 및 발주, 공간 운영, 대관관리, 직원 관리, 정산 등 1 인이 운영할 수 있도록 시스템을 구축함.
8.
전사 회계 시스템 매뉴얼 구축
지점별로 사업자 등록을 따로 해서 본점과 여러개의 지점으로 구성된 법인 구조라 원활한 비용처리 및 정산을 위해 회계 시스템 정립이 필요했음.
회계 관련 지식이 전무한 상황에서 업무를 맡게되어 업무 파악에 두 달 정도의 시간이 걸렸고, 이후 회계 실무 수업을 수강하고, 협력 회계사의 도움을 받아 회계 시스템을 구축함.
현금흐름표 및 손익계산서 작성, 현금흐름 및 입출금 관리, 매달 수입 지출 정리, 지점별 비용 항목 정산 및 세금계산서 발행을 루틴 업무로 진행함.
9.
행사기획 및 운영
아이디어를 구체화하는 일을 잘 하고, 사람들을 즐겁게 하는 일에 흥미가 있어 커뮤니티 행사 기획도 좋아하는 업무였음.
'크리스마스 파티', '셰어하우스 코잠 1주년 파티'부터 '파이빌데이' 등 고려대 내부에서 진행하는 행사 참여, 고객의 대부분인 20 대 초반 여성이 흥미를 느낄만한 '이지앤모어, 고려대 여학생위원회와 함께하는 월경컵 수다회' 와 같은 행사를 기획해 운영함.
고려대 캠퍼스타운에서 주관한 주민공모사업의 일환으로 방학이면 한산해지는 대학가 상권을 활성화시키기 위해 지역 인디 뮤지션들과 함께하는 라이브 공연 So So Live를 기획, 개최함.

주요 성과 Part 2 비즈니스 데이터 분석

1.
셰어하우스 코잠 신청자 데이터 분석을 통한 타겟 재설정 ( 기여도 50 % )
Tool: Google Spreadsheet Google Form
목적: 남성전용 하우스에 지속적으로 발생하는 공실을 없애기 위해
진행과정
셰어하우스 코잠 사업 초기 남성전용 하우스에 지속적으로 공실 발생하여 남성전용 하우스의 규모를 줄여 운영함
이후 사업 진행 1 년여 간의 데이터를 분석한 결과, 여성 신청자가 남성 신청자의 10 배 이상 되어 남성전용 하우스 운영을 종료하고 여성전용 하우스에 집중함
성과: 여성 타겟으로 브랜딩을 다듬어서 서비스 운영, 고려대학교 여학생들을 중심으로 빠르게 브랜드 인지도를 확보하며 시장 선점
2.
JUST LIVE 지점별 수익률 개선 ( 기여도 100 % )
Tool: Excel
목적: JUST LIVE 지점별 수익률이 예상치보다 낮아 이를 개선하는 프로젝트 수행
내용: JUST LIVE 전 지점 수익률을 기존 지점 중 수익률 베스트 모델과 비슷한 수준으로 개선하기 위해 비용 절감 방안 도출
진행과정
JUST LIVE 전 지점의 월별 비용을 확인하여 고정비용과 일회성 지출을 나누어 각 항목별 추가절감이 가능한지 여부 확인함 예를 들어, 수도요금의 경우 전입신고한 세대수로 세대분할하면 수도 기본제공량이 늘어나 요금 절감이 가능했음. 전입신고시 입실료를 할인해주는 이벤트 진행함. 가스요금의 경우 겨울 온수사용량이 가스요금의 큰 비중을 차지하여 온수 사용량을 줄일 수 있는 절수샤워기로 교체함 전입신고시 입실료 할인 이벤트나 절수샤워기 교체의 경우 당장에 다소 비용이 발생하나 장기적으로 비용절감효과를 가져다주는 것으로 판단하여 진행함
신규 인수한 JUST LIVE 지점의 경우 전기, 가스, 수도 등 계절에 따라 변동이 큰 고정비용의 변동폭을 예측하기 위해 JUST LIVE 타 지점 월 고정비용의 변동 추이를 참고하여 산출함. 수도요금 세대분할, 인터넷 요금제 변경 등 비용을 줄일 수 있는 방법은 모두 시행된 상태로 목표 수익률을 달성하기 위해서 월 70만원의 추가 매출이 필요하여 주변 시세를 반영하여 입실료 인상을 진행함( 객실당 2~3 만원 인상 )
성과: 전 지점 수익률 개선 ( 지점당 최대 11 % )
3.
Facebook, Instagram, 네이버 검색, 온라인 지역 커뮤니티 등 JUST LIVE 마케팅 채널 유효성 검증 ( 기여도 100 % )
Tool: Google Spreadsheet Google Form
목적: 기존 마케팅 채널별 고객 전환율을 확인하여 마케팅 비용 효율화
내용: JUST LIVE 입주신청자/입주자 유입경로 데이터를 활용하여 각 마케팅 채널별 CPC, CPA 도출
진행과정
채널별 고객전환율을 확인하여 전체 계약자의 총 36 % 가 무료 마케팅 채널인 지인추천 및 온라인 지역 커뮤니티를 통해 계약(CPC, CPA 0 원)하고, Facebook, Instagram, 네이버 검색, 부동산 정보 커뮤니티 등 다양한 유료 채널을 통해 마케팅을 하고 있었으나 유의미한 채널은 네이버 검색과, Facebook 뿐이었음. 따라서 네이버 검색과 Facebook 광고를 제외한 유료채널은 제외하고, 무료 마케팅 채널을 통한 마케팅을 활성화하기 위해 지인추천 및 온라인 지역 커뮤니티를 통한 계약시 할인 이벤트를 진행함
신규 지점의 경우 비용 대비 효과가 높은 온라인 지역 커뮤니티 발굴에 집중하는 것으로 마케팅 전략을 설정함
성과: 관성적으로 지출하고 있던 비효율적인 마케팅 비용을 절감하고, 신규 지점에 적용함으로써 시행착오를 줄일 수 있었음
4.
JUST LIVE 새 지점 위치 선정 ( 기여도 30 % )
Tool: Facebook 광고관리자 네이버 광고 키워드 도구
목적: 새 지점 위치 선정을 위해 수요량이 충분한 지역 선정
내용: 기존 JUST LIVE 지점이 있는 지역을 비교군으로 잡아 후보지의 시장 크기 및 수요층 추정
진행과정
지역별 실제 수요량 확인을 위해 신규 지점 후보지 대상으로 페이스북 광고 집행하여 기존 지점과 CPC, CPA 를 비교하였으나 후보지 모두 기존 지점에 한참 못 미치는 수치를 확인함. 따라서 후보지 외의 지역을 포함하여 서울 시내에서 시장 규모가 충분한 지역 모두 발굴하기로 함.
네이버 키워드 검색량을 통해 고시원 시장 전체적으로 시장 규모가 하락세이고, 특히 신촌 홍대 외 지역은 모두 크게 하락세임을 확인하여, 결국 가장 큰 시장이자 기존 지점을 운영하며 잘 알고있는 신촌 지역에 집중하여 규모의 경제를 노리기로 결정함
성과: 신규 시장을 발굴하려고 했으나 마땅한 신규 시장이 없었고, 기존 시장에 집중하기로 함. 진출해있는 신촌 시장에 집중하여 이미 구축해놓은 인적, 물적 자원을 이용하여 빠른 확장 및 신촌 지역 고시원 시장 내 파급효과를 가져오는 것을 목표로 함. 결과적으로 마케팅, 운영 측면에서 추가 리소스 투입을 최소화하며 지점을 확장할 수 있었음

프로젝트 상세 소개

1.
콘텐츠 소비 히스토리 분석 ( 2019.10 ~ )
Tool: Pandas ElasticSearch Tensorflow
Language: Python
기획의도: 평소 드라마 보는 것을 좋아하고, 굉장히 많은 드라마를 봐왔는데, 어느 순간 이것이 어릴 때 좋아했던 책읽기부터 시작된 ‘이야기 중독’ 때문이라는 것을 깨달음. 살아오면서 얼마나 오랜 시간 동안 얼마나 많은 이야기를 듣고, 그것들이 나에게 어떤 영향을 주었는지 확인해보고 싶어 2004년부터 15년간 보았던 드라마, 영화, 애니메이션, 소설을 전부 데이터 셋으로 만들어 분석해보는 개인 프로젝트를 진행
데이터 수집: 그 동안 소비한 영화, 드라마, 애니메이션, 소설 목록을 정리하고, KOBIS, 위키피디아 등을 참고하여 데이터 셋을 만듦
분석 방향
연도별로 가장 많이 본 장르, 배우 및 키워드 분석
작품별 감상 횟수, 모든 작품을 보는 데 걸린 전체 시간, 일 평균 감상 시간
끝까지 본 작품, 중간에 그만 둔 작품 간 유사성 분석
ElasticSearch 를 활용하여 검색 가능한 대시보드 구축
진행상황
데이터 아카이빙
분석 방향 설정
Pandas 를 활용한 EDA
2.
한국영화 흥행성적 데이터 분석 ( 2019.10 ~ 2019.12 ) (기여도 30 %)
Tool: OPEN API EXCEL Pandas Matplotlib Seaborn
Language: Python
기획의도: '여성 주연 영화가 글로벌 박스오피스 흥행성적이 더 좋았다' 는 미국 3대 탤런트 에이전시 CAA 와 연구기관 Shift 7 의 분석 결과를 보고 한국영화를 대상으로 여성 주연 영화와 박스오피스 흥행 성적의 관계를 분석하는 프로젝트 진행
관련 기사: '여성 주연 영화의 박스오피스 성적이 더 좋다' (2018.12.13) https://movie.v.daum.net/v/gXJR2MlfC0
팀구성: 데잇걸즈 3기_5인팀
역할: 데이터 분석방향 제시 / 전처리 / EDA / 시각화
데이터 수집: KOBIS 영화진흥위원회 제공 OPEN API 및 공공 데이터 이용
분석방향
여성 주연 영화와 박스오피스 흥행성적의 관계 분석
상영관 수, 상영 횟수, 제작비 등을 통계적으로 통제하여 흥행성적 분석
진행상황
F-rate 지수와 흥행성적의 상관관계 분석
장르, 관람등급, 상영횟수, 관객수, F등급, 연도별 시각화
참고) F등급: 영화에 참여한 주요 인력 중 여성 수를 나타낸 지표
장르에 따른 개봉작 비율(왼쪽)과 장르에 따른 관객수 비율(오른쪽) ( Pie plot )
드라마와 다큐멘터리가 전체 개봉작의 50 % 를 차지함
멜로/로맨스-코미디-애니메이션은 전체의 20 %
장르별 관객수 비율을 보면 1위인 드라마를 제외하면 순서가 완전히 달라진다
각각 개봉작 수로는 8위와 6위이던 액션, 범죄가 관객수 2, 3위를 차지함: 개봉작 수는 적지만 흥행 비율이 높은 장르
개봉작 수로는 25 % 에 달하던 다큐멘터리와 애니메이션은 전체 관객수의 3 % 에 그친다: 많이 개봉하지만 흥행은 안되는 장르
상영횟수에 따른 전국관객수 분포 ( Scatter plot )
레퍼런스로 하는 헐리우드 사례처럼 제작비 규모에 따라 그룹을 나누어 분석하고 싶었으나, 모든 영화의 제작비 데이터를 구하는 것이 사실상 불가능하여 제작비 대신 영화의 규모를 추산할 수 있는 피쳐를 고민 중. 첫번째 방법으로 상영횟수 대비 매출액[매출액/상영횟수] 피쳐를 만들어서 분석에 활용함, 상영횟수가 많아지면 매출액도 따라서 상승하는 효과를 보정하기 위함
3.
김해시 화재발생 예측모델 개발 ( 2019.10 ~ 2019.12 ) (기여도 40 %)
Tool: Pandas Matplotlib Seaborn statsmodel sklearn
Language: Python
기획의도: 김해 지역은 화재가 계절 및 장소 등에 관계 없이 잇따라 발생하고 있음. 화재 집중 예방이 가능하도록 소방 및 건물관련 정보를 융합하여 지역 내 화재 위험도에 대해 분석 및 예측모델 개발
역할: 데이터 전처리 / 시각화 / 모델링
데이터 수집: LH 캠퍼스 공모전에서 제공한 데이터 활용
분석방향
상관계수 확인 및 EDA 를 통해 화재발생과 관련있는 컬럼 찾기
화재발생 예측 모델 개발 및 평가 ( f1 score )
진행상황
지목, 토지 이용상황명, 도로종류, 연면적 등 컬럼 이해를 위해 부동산 관련 지식이 필요했음
화재발생 데이터의 화재발생시각(초) 분포 ( Bar plot )
화재발생시각 데이터에서 '초'가 화재발생여부와 상관계수가 -0.5 로 매우 높게 나옴. seaborn barplot 을 그려 분포를 확인해보니 화재발생 데이터에는 '초'가 모두 0으로 들어가 있어서 상관관계가 높게 나온 것으로, 분석에서 '초'를 제외함
지역별 화재발생여부에 따른 소방용수시설과의 거리 ( Box plot )
소방용수시설과의 거리가 가까울수록 화재가 많이 발생하는 것으로 상관계수가 나왔음. '화재가 많이 발생하는 곳에 소방용수시설을 많이 설치했을 것'으로 가설을 세우고 데이터를 확인해 봄. seaborn catplot 의 boxplot 을 통해 지역별로 데이터를 확인해보았더니 창원시 데이터에는 아예 화재발생 데이터가 1건도 없었음. 이 때문에 왜곡이 발생한 것으로 보고 창원시 데이터 전체를 분석에서 제외함
Null 값이 있는 컬럼들의 Null 값을 회귀분석 등을 이용해 채워주었는데, 알고보니 강수량 같은 경우 Null 값은 비가 안 온 날을 뜻하는 것이었음. Null 값을 0 으로 바꾸어 분석에 사용함
화재발생 데이터가 비화재발생 데이터에 비해 수가 매우 적은 Imbalanced Data라 화재발생 건에 대한 예측력이 떨어지는 문제가 있었음. 이를 해결하기 위해 Undersampling, Oversampling, XGBoost Model 등 다양한 방법을 시도
4.
식습관과 배변 패턴의 관계 분석 ( 2019.08 ~ 2019.10 ) (기여도 20 %)
Tool: Google Spreadsheet Pandas Excel Matplotlib Seaborn
Language: Python
기획의도: 평소 장트러블로 고통받고 있어 식습관 스몰데이터를 분석해 장트러블을 극복해 보기로 함
역할: 분석 주제 제시 / EDA / 아웃라이어 분석 / 시각화
팀구성: 데잇걸즈 3기_6인팀
데이터 수집: 구글 스프레드시트를 이용하여 8/2 ~ 10/14 까지 매일 식사와 배변 데이터를 수집
분석 방향:
Boxplot 을 이용한 아웃라이어 분석을 통해 개인별 특성 확인
시간대
걸린 시간
개인별 배변상태에 따른 걸린시간 ( Violin Plot )
Status(배변상태)가 나빠질수록 Time(배변시간)이 길어진다
시간대-날짜별 배변 패턴 ( Relation Plot )
Menstruation = 1(생리중)일 때 Status(배변상태)가 나빠지고, Time(배변시간)도 길어진다
성과
스몰 데이터 분석을 통해 정제되지 않은 형태의 데이터 가공부터 분석까지 경험함
수집기간 두 달 정도로는 데이터가 부족했고, 사람과 관련된 데이터라 외생변수가 많아서 원인 파악이 어렵다는 한계점이 있었음
문자열이 많이 포함된 형태로 데이터를 수집하여 Pandas 로 전처리하기 까다로워 Excel 로 진행함. 이후 Pandas 문법에 더욱 익숙해진 후 프로젝트 시 Excel 로 처리했던 데이터 전처리를 Pandas 로 다시 해보았고, 다음 프로젝트부터는 전처리 단계부터 Pandas 로 진행할 수 있었음
프로젝트 당시에는 자연어 처리에 대해 배우기 전이라, 전처리 과정에서 수집한 문자열 데이터를 다 없애고 One Hot Encoding 형태로만 분석을 수행함, 자연어 처리를 활용하여 추가적인 텍스트 분석을 진행한다면 추가적인 인사이트를 발굴할 수 있을 것으로 기대함