본문 바로가기
인공지능 (AI)

16번째 이야기 - 데이터, dataframe, 데이터의 다양성

by Ψβ⅓ 2022. 11. 4.

<데이터가 크다는 말의 의미>

데이터가 크다는 말은 무엇을 의미하는 것일까요? 데이터는 보통 표의 형태로 표현이 되며, 표는 행(row)과 열(column)로 구성이 됩니다.

데이터는 파이썬이라고 하는 언어 속, pandas 라이브러리의 DataFrame , 표의 관점으로 보았을 때 행이 많다는 의미도 되고, 열이 많다는 의미도 될 수 있을 겁니다.

 

data structures

그런데 말입니다?! 데이터 분석을 한다고 했을 때, 행이 많은 것과 열이 많은 것 중 어느 쪽이 더 중요하다 할 수 있을까요?

김영우(2022)에 의하면 열이 많은 것이 더 중요하다 합니다. 100명의 데이터를 분석하다가 데이터가 늘어나 100100만 명의 데이터를 분석하게 되었을 때, 데이터 분석가는 어떤 문제에 맞닥뜨리게 될까요?

일단 컴퓨터가 힘들어합니다. 연산의 양이 굉장히 증가했기 때문입니다. 컴퓨터가 느려진다는 얘기죠. 이를 해결하기 위해서는? 돈을 들여서 고사양의 장비로 보완하면 됩니다. 컴퓨팅 파워를 늘리는 방법에는 별 다른 왕도가 없습니다. 투자한 만큼 성능은 향상됩니다.

그렇다면 데이터 분석의 기술 측면에서는 어떨까요? 단순히 처리해야 할 데이터의 양만 늘어났기 때문에 분석 기술의 측면에서는 더 요구되는 것이 없습니다. 정리하면 데이터의 ''이 늘어나면 데이터를 분석하는 데 있어 데이터 분석가의 데이터 분석 기술이나 노력이 추가로 요구되지 않고, 컴퓨팅 파워의 개선이 주로 요구됩니다.

이번에는 데이터의 ''이 늘어나면 어떤 문제가 발생할까요? 표에서 열은 변수이자 데이터의 속성을 의미합니다. 열이 많아지게 되면 변수의 다양한 조합들이 기하급수적으로 늘어나게 됩니다. , 변수가 많아지게 되면 단순한 분석 기법으로는 한계가 생기게 마련이며, 여러 변수들의 복잡한 상관 관계를 밝혀낼 수 있는 또 다른 분석 기법이 요구됩니다. 이걸 사람들이 일일이 진행하는 데 어려움을 겪기 때문에 머신러닝 기법이 발전하게 된 측면이 큽니다.

 

데이터 분석을 할 때에는 단순한 데이터의 양을 뜻하는 ''보다는 데이터가 가진 다양한 속성을 뜻하는 ''이 많은 것이 더욱 중요하다 할 수 있습니다. 데이터 분석의 핵심은 결국 어느 속성(변수)에 따라 이떠한 결과(행위)등이 더 자주 혹은 덜 발생한다는 것을 밝혀내는 데 있습니다. 이러한 인사이트를 도출하기 위해서는 데이터의 변수, , ''로 구성되어 있어야 합니다. 물론 ''에 비해 ''이 너무 많은 경우 '차원의 저주'에 빠질 위험이 있음도 유의해야 합니다.

결론적으로 데이터의 다양성이 담보되어야 데이터 분석을 잘할 수 있고, 그러기 위해서는 데이터의 속성 즉, 변수를 나타내는 ''이 적절히 많은 것이 데이터 분석에 이롭다고 할 수 있습니다.

단순히 양이 많다고 빅데이터 소리를 들을 수 있는 것은 아닙니다. 빅데이터의 참된 가치는 데이터 분석을 실시했을 때, 인사이트를 얻을 수 있는 데이터이어야 하기 때문임을 잊지 맙시다.

댓글