티스토리 뷰

지난 번에 구입한 Head First Data Analysis 책 공부를 드디어 시작하게 되었다. 가설 검증 및 분석과 같이 당장 쓸 수 있을 것 같은 챕터부터 공부할까 했지만, 1장부터 기초를 쌓아가는 흐름을 의도한 것 같아, 1장부터 공부하고 정리를 시작하였다. 스터디 때 해당 내용을 공유하고 토의를 하였는데, 책의 예시가 (당연하게도) 너무 간략화된 예시라서 실제 데이터 분석 상황에서 겪는 어려움과는 괴리가 있다는 의견이 많았다. 하지만 예제를 통해 조금이나마 각 과정을 경험해볼 수 있다는 점이 좋다고 느꼈다. 어찌 보면 당연한 말만 써놓은 챕터인 것 같지만 당연한 말이라도 용어로 정의를 해놓는 것은 추후에 사용할 수 있게 저장되는 의미를 가진다고 생각한다. 데이터 분석가의 역할이나, 전체적인 분석 과정을 개괄적으로 볼 수 있는 챕터이니 입문자는 꼭 보고 넘어가길 바란다.






1장 - 데이터 분석 입문: 잘개 쪼개라


이 장에서 보여주고자 하는 것은, 고객이 가진 문제 상황을 해결하기 위해 기존의 지식과, 데이터 분석을 바탕으로 문제 상황해결을 위한 전략을 수립하는 과정이다. 이 책에서 예시로 들고 있는 문제 상황은, 10대 소녀를 타겟으로 하는 화장품 회사의 매출을 올려달라고 하는 것이다. 책은 총 두 번의 반복 과정을 통해 고객이 전략을 도출해내는 데 유용하게 쓰일 수 있는 권고안을 완성하여 매출 상승에 성공하는 아름다운 스토리로 전개가 된다. 1장에서 나오는 주요한 개념은 데이터 분석가의 역할, 데이터 분석 과정, 멘탈 모델 정도가 있다. 책에 나온 내용 정리와 더불어 나의 관점에서 보고 이해한 것과 그림을 덧붙여 보았다.






데이터 분석가의 역할


데이터는 사실을 보여 준다. 하지만 세상에 존재하는 모든 일들이 데이터로 표현될 수 있는 것은 아니다. 따라서 과거의 경향성을 나타내주는 데이터를 보고 미래에 대한 유추는 할 수 있지만, 아무리 데이터를 철저히 검증해서 도출했다고 해도 그 유추가 정확하다고 백 퍼센트 장담을 할 수는 없는 것이다. 따라서 데이터만으로는 유용한 통찰을 해낼 수가 없다. 데이터를 활용하여 유용한 통찰을 해내려면 고객이 가진 경험이나 도메인 지식, 수치적으로는 검증할 수 없는 사실들 등 데이터가 알려주지 않는 다양한 배경 지식이 필요하다. 


나는 1장을 공부하기 전에는 데이터 분석가가 '사실만을 나열하는 사람'에 가깝다고 생각했는데, 데이터 분석가는 데이터에 기반한 근거를 바탕으로 '의견을 제시하는 사람'이라는 것을 알게 되었다. 데이터 분석가는 데이터를 구조화하고 분석하여 고객이 조금이라도 더 나은 판단을 내리는 데 힘을 실어주는 역할을 하는 사람인 것이다.






데이터 분석


데이터 분석을 한다는 것은 일단 지식과 경험 등으로 만들어진 사고 구조를 기반으로 특정한 관점을 취하고 그 관점으로 문제 상황을 바라봄으로써 가설을 도출하고 검토하는 과정을 반복하여 최종적으로 정리된 분석 보고서를 만들어내는 것까지를 말한다. 우수한 분석가는 항상 실증적인 증거를 가지고 문제에 대해 곰곰이 고찰한다.


우수한 분석가들은 기술이나 목적과는 무관하게 위와 같은 동일한 기본 절차로 분석을 해나간다. 이 절차는 네 단계로 이루어져 있는데 첫 번째가 정의, 두 번째가 분해, 세 번째가 평가, 마지막이 결정이다. 아래에서 각 단계를 하나씩 살펴 보도록 하겠다.


데이터 분석의 네 단계



참고로, 이제부터 자주 나오는 “고객”이라는 단어는 분석 결과를 제공해야 하는 상대를 말한다. 기업 대표, 서울 시장, 상사, 자기 자신 등 다양한 사람이 될 수 있다. 이 책의 예제에서는 매출 상승을 원하는 화장품 기업 CEO를 예시로 들었다.








데이터 분석 단계 - 1. 정의


데이터 분석을 하는 첫 단계는 문제와 목표를 정확히 정의하는 것이다. 이 단계에서는 고객이 최종적으로 어떤 목적을 달성하려 하는지를 명시, 구체화한다. 데이터는 굉장히 방대하기 때문에 이런 문제 정의를 제대로 해야 방대한 데이터에 묻혀서 방향성 없이 탐색하며 긴 시간동안 길을 헤메는 일을 방지할 수 있다. 목적지가 없이 떠나는 길에서 우연한 발견을 기대할 수도 있지만 어떤 것을 발견할 지, 그리고 그것이 유용한 것일지는 아무도 알 수 없다. 해결할 문제에 포커스를 맞추지 않고 이런 저런 데이터 분석을 진행하다보면 분석한 것의 양만 늘어날 뿐 분석을 통해 어떤 주장, 결론을 권고하기는 힘들게 된다.





데이터 분석을 하기 전에 뚜렷한 목표를 설정함으로써 많은 시간과 자원을 절약할 수 있다.









문제 정의를 하고자 할 때는 고객의 말을 잘 듣는 것이 도움이 된다. 문제를 정의하기 위해서라도 최대한 고객에게 많은 정보를 얻어내야 한다. 또한 고객이 해결하기를 원했던 상황 즉, 문제는 애매하고 두루뭉술한 요구일 때가 많은데, 유효한 분석을 위해서는 고객의 의도를 더 깊이 이해해야한다. 적절한 질문들을 통해서 고객의 의도를 최대한 구체화할 필요가 있다. 물론 문제 정의를 위한 질문에 대한 답이 꼭 신뢰도가 있는 것만은 아니다. CEO 본인이 자신의 사업에 대해 잘 모를 수도 있고, 직감에 의존할 수도 있기 때문이다. 또한 결과적으로 어떤 문제가 발생해서 데이터 분석을 요청한 경우에도 근본적으로 어떤 문제가 있으며 어떤 문제를 해결하고 싶은 지도 명확히 알지 못하는 경우도 많다. 실컷 분석 보고서까지 작성하고 나서 "에잉 이 방향이 완전 아닌데." 혹은 "이건 예전에도 나왔던 결과예요."라는 소리를 듣지 않으려면, 사전에 최대한 정보를 파악하는 것이 좋다.




고객의 요구나 목표 의식이 명확하지 않은 경우도 비일비재하다.









데이터 분석 단계 - 2. 분해


데이터 분석 두 번째 단계는 분해 단계이다. 1단계에서 정의된 목표를 달성하기 위해는 여러 가능성에 대한 다양한 탐색을 해야하는데, 이러한 평가 및 검증이 쉽도록 문제 내용과 데이터를 분석하는 데 가장 적합한 정도로 분해하는 것이다. 큰 문제는 직접 한번에 대답하기 어렵지만 큰 문제에서 분해한 작은 문제의 해답을 찾으면 큰 문제의 해답을 찾을 수도 있기 때문이다. 우리가 분해해야 하는 대상은 두 가지가 있다.

첫 번째는 CEO들의 여러 가정이 섞여 있는 멘탈 모델이고, 두 번째는 데이터이다.






분해 대상 1 - 멘탈 모델

멘탈 모델은, 복잡한 세계를 이해하기 위해 사용하는 도구 상자와 같다. 뇌는 새로운 정보를 얻을 때마다 그 정보를 분석하기 위한 도구를 선택한다. 멘탈 모델은 타고난, 내장된 인지 능력일 수도 있고 우리가 익혀온 이론일 수도 있다. 문제 내용에서 문제 상황을 인식하고 있는 고객의 여러 가정들도 멘탈 모델에 포함되어 있다.



멘탈 모델은 지식과 경험, 분석 결과 등 다양한 정보로 이루어져 있다.




멘탈 모델에 따라 보이는 것이 달라지는데, 멘탈 모델은 현실을 보는 렌즈이다. 모든 것을 볼 수는 없기 때문에 뇌는 무엇인가에 중점을 두고 선택적으로 주의를 집중해야 한다. 따라서 멘탈 모델에 따라 우리에게 보이는 것도 결정이 된다. 어떤 멘탈 모델은 세계의 어떤 특징에 주목할 것이고, 다른 멘탈 모델은 다른 특징에 주목하고 있을 것이다. 통계 모델 또한 멘탈 모델에 따라 달라지기 때문에 잘못된 멘탈 모델을 사용하면 우리의 분석은 시작하기도 전에 실패를 하게 된다. 고객의 멘탈 모델을 어느 정도 사용하는 것은 모든 사실을 새로 조사하고 분석해야하는 수고로움을 덜어주어 시간과 자원을 효율적으로 사용하는 데 좋지만, 고객이 완전히 잘못된 멘탈 모델을 사용하는 것은 드문 일이 아니기 때문에 주의해야한다.




따라서 멘탈 모델에는 모르는 부분이나 불확실한 부분을 포함하여 모든 것을 명확하게 해놓는 것이 중요하다. 불확실한 것이 무엇인지를 분명히 해놓으면 추후에 그 지식의 격차를 해소하기 위해 어떻게 데이터를 사용할지에 대해 주의 깊게 살필 수 있다. 불확실한 부분은 CEO에게 질문도 함으로써 구체화 해나간다. 멘탈 모델을 분해한다는 것은 분석의 도구가 되는 기반 지식들이나 고객의 상황 판단을 짧은 요약 문장들로 쪼개어 본다는 것을 의미한다.






멘탈 모델에 항상 정확한 정보만 있는 것이 아니다.

분석을 위해서는 불확실한 부분이 무엇인지도 알고 넘어가야한다. 








분해 대상 2 - 데이터

큰 데이터에서 우리가 원하는 필요한, 정확한, 정량적인 대답이 바로 나오는 것은 아니다. 스스로 중요한 요소를 뽑아내야 한다. 데이터에서는 비교와 대조를 해본 후 강한 대조 지점을 찾아내거나 각각의 추이선을 그려 본다. 적절한 비교를 하는 것이 데이터 분석의 요점이다. 또한 통계 데이터를 비교함으로써 고객의 사업 상황에 대한 개념을 구축할 필요가 있다.








데이터 분석 단계 - 3. 평가


데이터 분석 세 번째 단계는 평가 단계이다. 두 번째 단계에서 분해 해놓은 멘탈 모델 및 데이터를 본!격!적!으로 면밀하게 평가한다. 최종 판단을 내리기 위해 멘탈 모델을 끊임 없이 수정 하면서, 데이터를 살피면서 가설 수립 및 검증을 한다. 




멘탈 모델을 분해하고 평가하여 틀린 부분은 제거하고 새로 알게된 사실들은 추가한다.









데이터 분석 단계 - 4. 결정


앞서 말했듯 데이터 분석가로서 우리가 할 일은 데이터에 대해 꼼꼼히 검토하여 얻은 통찰을 바탕으로, 우리 스스로나 고객이 더 나은 판단을 내릴 수 있도록 힘을 실어주는 것이다. 이렇게 하기 위해서는 우리의 생각과 판단을 고객이 이해할 수 있는 형식으로 정리해야 한다. 분석 결과는 가능한 한 요점이 잘 드러나도록 간결하게 정리되어야 하지만 너무 간결해서는 안된다. 다시 한 번 말하자면, 우리의 목소리를 전달하고, 사람들이 우리의 권고에 근거하여 좋은 판단을 내릴 수 있도록 하는 것이 우리가 할 일이다.


보고서는 내용으로 분석 배경, 데이터 분석 결과, 권고안을 담고 있어야 한다. 분석 배경을 통해 문제에 대한 상황 인식 및 고객의 요청과 상황 판단을 정리하여 이해하기 쉽게 설명한다. 데이터 분석 결과는 데이터를 기반으로 시각화한 그래프 등을 이용하여 골자를 알려 준다. 그리고 처음 정했던 목표를 달성하기 위해 분석을 통해 도출한 방법은 권고안에 포함된다.



몇 백장의 분석 결과를 나열한 것보다, 의견을 포함하는 간략한 보고서가 좋다.






요약정리


1. 데이터 분석가로서 우리가 할 일은 데이터에 대해 꼼꼼히 검토하여 얻은 통찰을 바탕으로, 우리 스스로나 고객이 더 나은 판단을 내릴 수 있도록 힘을 실어주는 것이다. 


2. 멘탈 모델은 분석 효율을 위한 좋은 도구이지만, 문제를 일으킬 수 있다는 것을 항상 염두에 두고 불확실한 것인지, 추정에 의한 것인지, 통계에 의한 사실인지, 모르는 것은 무엇인지 등 각각의 정보를 최대한 명확히하고 분해해두자. 그래야 실패해도 어디서 잘못된 건지 알 수 있다.



출처


참고 서적 : 마이클 밀튼, 『Head First Data Analysis』. 제 3개정판. 김경태(역). 서울: 한빛미디어, 2015.
그림 출처 : 본인 (ccuram.tistory.com)





댓글