[일잘러스킬]데이터추출-Raw data 가공하기

May 25, 2020 · 4 mins read

안녕하세요~!
프로이직러 Mara입니다.

이전 글에서 데이터를 추출할 때 문제에 대한 정의가 중요하다는 내용을 살펴봤는데요. 이번 글에서는 추출한 데이터를 가공하는 작업에 대해서 다뤄볼게요. 정의한 문제에 따라서 데이터를 추출했지만 그것만으로는 분석을 진행하기 부족할 때가 있습니다. 이때 필요한 작업이 바로 데이터 가공 작업인데요. 우선 Raw data가 무엇인지 살펴보고 데이터 가공 작업은 어떤 경우에 필요한지 살펴볼게요.

1. Raw data란?

Raw data는 편집자의 주관이 투영되지 않은 날 것의 데이터를 의미합니다. Raw data는 단순한 숫자 또는 Text의 나열이기 때문에 그 자체로는 의미있는 분석을 하기 어렵습니다. 따라서 Raw data를 여러 방향으로 뜯어보고 조합하는 과정이 필요한데 이때 원하는 방향으로 분석을 위해 가공 작업이 필요한 경우가 있습니다. 물론 가장 효율적인 방법은 추가 가공이 필요 없도록 Raw data를 완벽하게 추출할 수 있는 조건을 갖추는 겁니다. 하지만 이렇게 하려면 데이터를 쌓는 단계부터 어떤 데이터를 어떻게 적재해야 하는지 데이터 관리하는 유관부서와 협의가 필요하기 때문에 혼자서 결정하기는 쉽지 않습니다. 따라서 간단한 수식을 활용해서 데이터 추가 가공 작업하는 방법을 알아볼게요.

2. Raw data 가공이 필요한 경우

디지털 마케팅 대행사에 근무하는 Mara는 주 단위로 광고비 예산을 취합합니다. 광고비를 어디에 어떻게 썼고 예산 집행을 통해서 얼마나 수익을 냈는지는 회사의 KPI이기 때문에 매주 모니터링이 필요합니다. 이때 Raw data에는 ‘광고비’를 구분해서 볼 수 있는 다양한 기준이 있습니다. 매체, 소재, 날짜 등등 똑같은 광고비 천만 원이라고 하더라도 어떤 각도로 데이터를 쪼개 보고 싶냐에 따라서 기준이 달라지겠죠? 이렇게 데이터를 구분해주는 기준이 되는 데이터는 피벗 테이블에서 행 위치에 오게 됩니다. 앞으로 이런 데이터를 ‘피벗 테이블 행 데이터’라고 부를게요.

img

3. Weekday수식 활용해서 요일 정보 알아내기

그런데 Raw data에 Mara가 원하는 ‘피벗 테이블 행 데이터’가 없습니다. Mara는 ‘요일’별 광고비 집행 내역을 보고 싶은데 Raw data에는 ‘날짜’라는 정보밖에 없는 거죠. 그럼 Raw data에서 날짜라는 데이터를 활용해서 요일이라는 정보를 Raw data에 추가해주면 ‘피벗 테이블 행 데이터’에 요일이 추가돼서 요일별 광고비를 볼 수 있게 됩니다. 참고로 요일 데이터는 WEEKDAY라는 수식을 걸어준 다음에 셀서식(단축키 Ctrl+1)>사용자 지정>’aaa’입력 해주면 요일 데이터를 볼 수 있습니다.

img

img

4. IF 조건문 활용해서 데이터 재정의 하기

또 다른 예를 들어볼게요. 매체 데이터를 VVIP, VIP, Normal이라는 ‘매체 등급’이라는 피벗 테이블 행 데이터로 재정의 하고 싶습니다. 전월 광고비 기준 1천만 원 이상 사용하는 A, B 매체는 VVIP로, 5백만 원이상 1천만 원 이하로 사용하는 C, D매체는 VIP로 5백만 원 이하 E매체는 Normal로 분류하고 싶은 거죠. 그럼 Raw data에 ‘매체 등급’이라는 데이터를 추가해줍니다.

img

위의 예제는 데이터 양이 적기 때문에 ‘매체등급’이라는 데이터를 추가하는데 크게 어렵지 않았지만, 데이터 양이 많다면 일일이 수작업으로 분류하기 어려울 수 있습니다. 이럴 경우에는 여러 가지 방법이 있지만 ‘특정 조건을 만족하면 이 값을 부여한다’라는 ‘If 조건문 수식’을 통해서 값을 부여해줄 수 있습니다. If 조건문 수식은 활용도가 워낙 높고 여러 가지 함수와 믹스하여 다양하게 사용할 수 있기 때문에 사용해야 할 케이스가 생길 때마다 찾아보면서 미리 공부해두면 좋은 것 같아요.

기본적인 문법은 If(조건문1, True일 때 output 값, False일 때 output값)입니다. 여기에서 조건 문안에 조건문을 다시 삽입하는 식으로 여러 가지 조건을 부여할 수 있고요. Mara는 아래와 같은 조건문을 사용해서 매체 등급을 분류해줬습니다. 식을 해석해보면 조건문 1을 계산한 뒤 만족하면 VVIP라는 값을 부여, 만족하지 않으면 조건문 2를 계산, 조건문 2를 만족하면 VIP라는 값을 부여, 만족하지 않으면 Normal라는 값을 부여하는 것으로요. 여기서 꿀팁은 텍스트와 일치 여부를 판단하는 조건문을 줄 때는 반드시 텍스트를 “ “ (쌍다옴표)로 감싸줘야만 수식이 작동한다는 점입니다. 수식이 제대로 짜여 있다면 모든 ‘매체’ 정보는 VVIP/VIP/Normal 중 하나의 값을 가질 것입니다.

img

이렇게 ‘피벗 테이블 행 데이터’를 추가해서 기존 데이터를 한 단계 더 쪼개 보고 싶거나, 한 단계 더 상위 레벨로 보고 싶거나, 데이터를 재정의 하고 싶을 때 추가 작업이 필요합니다. 이렇게 데이터를 추가하고 나면 반드시 크로스체크를 해줘야 하는데요. 다음 글에서 효율적이고 정확한 데이터 검증 방법에 대해서 알아보겠습니다!
오늘도 칼퇴하세요~! 🙋‍♀️


comments powered by Disqus