본문 바로가기

AIFFEL 회고록

[Week 6] 캐글 하다 말고 고양이가 둠칫둠칫

Exploration

9. 캐글 경진대회 맛보기

데이터 사이언스에 관심 있는 사람이라면 필수로 거쳐야 할 관문인 캐글에 처음으로 결과물을 제출해보았다. 캐글에 있는 데이터셋은 연습용으로 많이 활용해봤지만 대회에 직접 submission 해본 것은 처음이었다. GitHub에 처음으로 잔디를 심었을 때처럼 또 하나의 산을 넘은 기분이었다. 이번에 연습 삼아 참가한 2019 2nd ML month with KaKR는 King County의 집 정보를 바탕으로 집값을 예측하는 것이 주제였다. King County라면 예전에 시애틀에서 지냈을 때 살았던 집도 잘 찾아보면 있을 것 같다. 이 데이터셋을 보면 미국 인턴 시절의 추억이 떠올라서 자꾸 딴 길로 새게 되는데, 더 시간 끌지 말고 마무리해야할 것 같다.

 

10. Image Segmentation

이번 프로젝트에서는 Semantic Segmentation을 통해 이미지에서 배경과 피사체를 분리하는 작업을 해보았다. 한 이미지에서 피사체를 인식하여 분리하고 배경을 흐리게 한 뒤 합성하니 카메라의 인물모드처럼 아웃포커싱이 되었다. 이 기법을 응용하여 한 이미지에서 피사체만 가져오고 다른 배경에 합성하는 것도 가능했다. 전체 과정을 함수로 만들어 여러 이미지에 적용해보면서 재미 있는 합성사진들을 만들 수 있었다.

 

 


Fundamental

13. Pythonic Code

파이썬의 장점은 코드가 쉽고 간결하다는 것이다. 이번 노드에서는 파이썬의 장점을 살려 파이썬다운 코드를 작성할 수 있도록 for문, 리스트 컴프리헨션, 예외 처리, 함수, 람다 표현식 등을 배웠다. 배운 내용들을 앞으로도 계속 활용하면서, 의식의 흐름대로 코딩하는 것이 아니라 Pythonic한 코드를 작성하기 위해 신경을 써야겠다.

 

14. 데이터 전처리

데이터를 제대로 활용하려면 우선 전처리를 제대로 해야 한다. 이번 시간에는 데이터 전처리 과정에 활용할 수 있는 결측치와 이상치 제거, 정규화, 원-핫 인코딩, 구간화 등의 기법을 배웠다. 데이터 전처리를 할 때 항상 느끼는 것은 판다스라는 패키지가 참 매력적이라는 것이다. 엑셀을 많이 다뤄봤던 문과생의 입장에서 보자면 엑셀에서 GUI를 빼고 코드로 실행시키는 게 판다스인 것 같다. 표에 정리하는 걸 좋아하는 정리 덕후로서... 조만간 날을 잡고 판다스란 녀석을 마스터해보고 싶다.

 

15. 선형 회귀와 로지스틱 회귀

오늘은 가장 기본적인 분석 방법인 회귀분석과, 그 안에서 양대산맥을 이루는 선형 회귀와 로지스틱 회귀에 대해 배웠다. 그동안 주로 딥러닝을 배우다가 오랜만에 전통적인 회귀분석 기법을 본 반가움도 잠시, 곧바로 복잡한 수식들이 여러 개 등장했다. 통계도 참 만만치 않은 분야인 것 같다. 그래도 EECS 강의에서 배웠던 Softmax와 Cross Entropy를 다시 접하니, 처음 봤을 때보다는 어떤 느낌인지 알 것 같았다.

 


한 주를 마무리하며

지난 주에 비해서 잠을 잘 잤더니 확실히 컨디션이 나아졌다. 열심히 집중을 했더니 평소보다 일주일이 더 빠르게 지나간 것 같다. 음... 한 주가 너무 정신 없이 지나가서 무슨 말로 마무리해야 할지 모르겠다. 다음 주에 해커톤도 있고 설 연휴도 있으니, 해커톤까지 빡세게 달리고 설날에 잘 쉬어야겠다. 그렇다고 너무 쉬지만 말고 판다스 마스터도... 할 수 있을까?