Big Data란?
요즘 빅 데이터라는 단어가 우리 주변에서 많이 들리고 있다. 이 단어는 뉴스에서도 많이 나오고 요즘 참 많이 접하게 되는 단어이다. 정확히 빅 데이터란 무엇인지, 그리고 왜 이리 주목되고 있는지 알아보자.
프로그램에서 데이터랑 상당히 중요한 요소이다. 이 데이터들을 사용자가 원하는 형태로 가공하여 보여주는 것이 일반적인 프로그램이다. 이러한 데이터들을 잘 관리하기 위해 데이터 베이스에 저장하고 읽어들여 원하는 형태로 가공을 한다. 하지만 대량의 데이터를 처리하거나 고정된 형태의 데이터가 아닌 정해지지 않은 포맷의 데이터들을 분석해서 원하는 정보를 추출하는 기술들이 요구 되었다. 그래서 나온 기술이 빅 데이터이다.
IBM에서는 데이터의 양(Volumn), 데이터 입출력 속도(Velocity), 데이터 종류의 다양성(Variety), 데이터 안정성(Veracity) 이라는 4요소를 가지고 빅 데이터의 4V를 정의하고 있다.
빅데이터는 정말 많은 분야에서 활용되고 있는데 그 중 대표적인 사례를 살펴보자.
정치 밎 사회
2008년 미국 대통령 선거에서 버락 오바마 캠프는 여러 형태의 유권자 정보를 모아 데이터베이스를 구축하고
이 정보를 바탕으로 유권자 맞춤형 선거 전략을 세웠다.
이 때 수집한 정보는 나이, 인종, 종교, 소비수준 등 기본적인 인적사항과 소셜 미디어등을 통해 정보를 수집했었다.
이러한 데이터베이스를 바탕으로 유권자의 성향등을 분석하여 유권자들의 행동을 예측하는 시스템을 활용하였다.
이러한 유권자 맞춤형 전략을 바탕으로 오바마 캠프는 효과적인 선거를 치를 수 있었다.
광고
아마존은 고객들의 구매 내역을 데이터베이스에 저장하고 이런 정보를 분석하여 고객의 취향과 관심사를 파악하여
상품을 추천해주는 시스템을 사용하고 있다.
또한 구글이나 페이스북도 사용자의 여러 정보들을 종합해서 맞춤형 광고를 제공하고 있다.
스포츠
머니볼이라는 영화를 아는가? 이건 실제 미국 메이저리그에서 오클랜드 서슬레틱스의 구단장 빌리 빈의 이야기를 영화로 만든 것이다.
빌리 빈은 리그 최약체였던 오클랜드를 오직 데이터만을 가지고 선수들을 배치해서 승률을 높였다.
최근에는 과학과 카메라 기술 등의 발달로 더욱 정교한 데이터 수집이 가능해졌다.
투수의 투구 궤적 및 그립, 타구의 방향이나 야수의 움직임등의 데이터를 수집하고 분석해서 야구 경기에서 활용하고 있다.
구글 번역
구글에서 제공하는 자동 번역 서비스인 구글 번역은 빅 데이터를 활용하고 있다.
구글은 수억 건의 문장과 번역문을 데이터베이스로 만들어서 번역할 때
유사한 문장과 어구를 기존에 축적한 데이터를 바탕으로 최적의 번역을 추론해가는 통계적 기법을 사용하고 있다.
분석 기술
대부분의 빅데이터 분석 기술은 기존에 통계학과 전산학에서 사용되어온
데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이다.
이러한 대규모의 정형/비정형 데이터들을 처리할 때 가장 기본적인 분석 인프라로
하둡을 많이 사용하며 데이터를 유연하고 빠르게 처리하기 위해 NoSQL이 사용되기도 한다.
다음 글에서는 기본적인 인프라인 하둡에 관하여 살펴볼 것이다.
'IT > Big Data' 카테고리의 다른 글
스파크(Spark) 최적화하기 (0) | 2024.03.21 |
---|---|
HDFS 하둡 분산 파일 시스템 (0) | 2018.09.24 |
하둡(Hadoop) 이란? (0) | 2018.04.16 |