빅데이터, 생활을 바꾸다

빅데이터, 생활을 바꾸다

“삼성카드, O2O 플랫폼 경쟁 빅데이터로 ‘승수’” - 헤럴드경제
“네파, 빅데이터 활용해 맞춤형 마케팅…SK플래닛과 MOU” - 한국경제
“CJ대한통운, 빅데이터 서버 도입…하루 700만 상자 처리 가능” - 뉴스1

‘빅데이터’ 누구나 한 번쯤은 들어본 적이 있을 것이다. 하지만 빅데이터가 무엇인지, 어떻게 활용되고 있는지 자세히 알고 있는 독자는 많지 않을 것이다.
그런 독자들을 위해 준비했다. 지금부터 명대신문과 함께 빅데이터에 대한 기초 교양을 쌓아보자.

빅데이터 덕분에 변한 세상, 그리고 변할 세상!

빅데이터는 생성주기가 짧고, 규모가 크며, 다양한 형태로 존재하는 대규모 데이터로 △엄청난 크기의 데이터양(Volume) △다양한 형태의 데이터(Variety) △빠른 생성 주기(Velocity) △가치(Value) 4가지의 특성이 있어 4V라고 불리기도 한다. 빅데이터를 단어 그대로 ‘큰 데이터’ 라고 해석해도 큰 무리는 없다. 빅데이터를 가장 단순하게 표현한 단어이기도 하다. 하지만 지금 상용되고 있는 빅데이터의 뜻은 ‘무의미한 큰 데이터의 분석을 통해 가치 있는 데이터를 추출하는 것’에 가깝다.

흐트러져 있는 데이터를 모아 분석하고, 패턴을 읽는 것으로 유의미한 가치를 창출할 수 있다는 점은 빅데이터가 가지는 큰 매력이다. 최근에는 빅데이터가 가진 이러한 장점이 인정받으며 정치, 사회, 경제 등 분야를 막론하고 자주 언급되고 있다. 매력 만점의 빅데이터, 실제로 어떻게 쓰이고 있고 어떻게 사용해야 할지 알아보자.

올빼미들의 안전귀가를 책임집니다! 서울시 올빼미버스

1010호 생활 - 올빼미버스.png

서울시는 2013년부터 심야 전용 시내버스, 일명 ‘올빼미버스’를 운영 중이다. 현재 8개 노선이 운행 중이며 운행시간은 지하철과 버스가 끊기는 자정부터 오전 5시 사이이다. 올빼미버스의 노선을 정하는 과정에서 서울시는 KT와 협력해 약 30억 건에 달하는 통화데이터를 분석했다. KT 가입자의 심야시간(0~5시) 통화 기지국 데이터들을 통해 유동인구가 많을 것으로 예상되는 지역들을 묶어 버스 노선을 정했다. 작년 서울시 대중교통 이용자 수가 감소했지만, 빅데이터를 이용한 최적화 덕분에 올빼미버스 이용자는 증가하는 효과를 봤다. 무의미한 정보로 여겨질 수 있는 심야시간의 통화위치가 유용한 정보로 재생산된 사례이다

1010호 생활 - 올빼미버스 사진 추가.png

삼성, 빅데이터 활용한 신입사원 채용

1010호 생활 - 삼성.png

삼성그룹이 작년 공채에 빅데이터를 활용해 신입사원을 뽑은 것으로 나타났다. 삼성은 지난 20년간 신입사원들이 제출한 자기소개서, 이력서를 텍스트 마이닝 기법을 통해 분석한 뒤 데이터베이스로 만들었다. 그 뒤 신입사원들이 입사한 뒤 달성한 성과를 추적해 이를 빅데이터화 했다. 이 데이터를 통해 이력서와 자기소개서를 제출한 지원자가 어느 정도 성과를 달성할지 예측해 신입사원을 뽑았다고 한다. 빅데이터를 통해 지원자의 미래가치를 판단하고 채용한 것이다. 더불어 합격자들의 직무배치를 하는 과정에서도 적극 활용했다고 한다. 국내에서 최초로 시행된 삼성의 빅데이터기술 활용 신입사원 공채를 두고 다른 기업들도 같은 방식을 채택할 준비를 하고있다고 한다.

숫자의 힘을 믿는 스포츠

1010호 생활 - 머니볼.png

실화 기반 영화로도 유명한 <머니볼>의 개봉연도인 2011년 당시엔 빅데이터라는 개념 자체가
생소할 때이다. 하지만 자세히 들여다보면 빅데이터가 활용된 사례임을 알 수 있다. 미국 메이저리그 오클랜드 애슬레틱스는 타자를 평가할 때 타율, 타점, 도루 등 전통적인 선수선발 데이터를 제외하고 당시에는 생소한 개념인 출루율, 장타율 등의 데이터를 이용했다. 이 데이터들이 승부를 내는데 직접적인 관련이 있다는 분석 후 정한 평가방법이었다. 경기데이터를 철저하게 분석해 오직 데이터만으로 선수를 배치한 오클랜드 애슬레틱스는 메이저리그 최초 20연승이라는 신기록을 달성하기도 했다.

미국 프로야구가 시작되고 첫 135년간 생성된 데이터의 총량은 2GB이다. 반면 최근 진행되
는 경기는 한 경기에 1TB의 데이터가 생성된다. 이런 많은 양의 데이터를 분석하고 유의미한 상관 관계를 찾아내 경기에서 이길 확률을 높이기 위해 메이저리그 구단들은 100만 달러가 넘는 슈퍼컴퓨터를 구매하기도 한다. 선수의 장비에 부착하는 데이터 칩을 통해 예전과는 비교할 수 없는 양의 스포츠 데이터가 발생하고 있다. 이를 분석해 게임에서 이길 확률을 높이고자 하는 노력은 야구뿐만이 아니라 축구, 농구, 핸드볼 등 거의 모든 종목의 스포츠에서 찾아볼 수 있다.

인간과 기계의 대결, AlphaGo

1010호 생활 - AlphaGo.png

기계와 인간의 대결이라는 이름으로 시선을 끈 Challenge Match에서 인간 최고의 기사를 꺾은 AlphaGo의 실력은 어디서 온 것일까? AlphaGo는 많은 양의 기보를 저장해 두고, 스스로 학습하고 분석해 판단하는 딥러닝 방식을 사용했다. 기존의 바둑 프로그램은 어떤 수를 둘지 인간이 미리 정해둔 알고리즘대로 따라갔다. 반면 AlphaGo는 스스로 학습하며 최선의 수를 연구한다. 알파고는 16만 개의 기보를 5주 만에 학습할 수 있다. 인간이 1년에 1천 개의 기보를 학습한다고 해도 160년이 걸리는 어마어마한 양이다. 빠른 연산속도 덕분에 이세돌이 평생 동안 둔 대국을 단 3일이면 AlphaGo는 둘 수 있다. 전문가들은 이러한 이유로 앞으로 인간이 AlphaGo를 이기는 일은 없을 것이라고 예측한다. 이 순간에도 AlphaGo는 엄청난 연산속도로 수많은 기보 데이터들을 학습하고 있다. 지금보다 더 뛰어난 실력을 갖추게 될 AlphaGo가 진정으로 무서운 이유다.

AlphaGo 이전의 승리자, Watson

1010호 생활 - Watson.png

이세돌과 AlphaGo의 대결이 이목을 이끈 탓에 인간과 기계의 대결에서 승리를 거둔 최초의 기계로 생각하는 사람이 많다. 하지만 인간과의 대결에서 승리를 거둔 최초의 기계는 1996년 체스 챔피언 카스파로프를 이긴 IBM의 딥블루이다. 이후 딥블루의 업그레이드 버전인 Watson은 미국 퀴즈쇼 제퍼디! 에서 퀴즈왕들을 제치고 우승을 차지했다. Watson은 많은 양의 데이터를 자신이 분석하여 인간이 던지는 질문을 이해하고 퀴즈의 정답을 맞혔다. 인간을 이긴 최초의 기계 Watson은 어떤 방법으로 인간을 이겼을까? Watson은 인공지능을 활용해 질문을 알아듣고, 클라우드 서버에 있는 빅데이터를 분석해 적절한 답변을 제공한다. 또한, 지속적으로 자가학습을 통해 스스로 전문지식을 발전시키고 있다. 클라우드 기술을 이용한 Watson은 빅데이터를 분석해 인간이 더 나은 의사결정을 하도록 도와준다. 예전에는 퀴즈의 정답을 맞추는 정도의 기술이었다면, 지금은 1500만 페이지에 달하는 의료정보를 학습해 환자에게 최적의 치료정보를 제공하는 의사의 수준까지 다다랐다. 의료분야뿐만 아니라 앞으로 데이터를 기반으로 한 의사결정 시스템에 전반적으로 큰 영향을 끼칠 것으로 예상된다.

생각보다 가까운 빅데이터, 대학생활에 적용해보기

1010호 생활 - word1.png
▲워드 클라우드1

1010호 생활 - word2.png
▲워드 클라우드2

1010호 생활 - 통계1.png

▲통계1

앞에서 살펴봤듯이 빅데이터는 여러 가지 변형된 방식으로 우리 가까이에 존재하
고 있다. 그렇다면 이번엔 대학생활에 빅데이터를 적용해보자.

현재 우리대학의 강의평가는 크게 세 가지로 나뉜다. 학교 측에서 진행하는 강의평가와 우리대학 커뮤니티 사이트인 뮤존에서 제공하는 강의평가, 강의평가 애플리케이션 파피루스를 이용하는 방법이 있다. 학교 측에서 진행하는 강의평가는 학생들이 평가 내용을 알 수 없고 파피루스는 현재 이용이 불가능하다. 그래서 학우들은 뮤존에서 제공하는 강의평가서비스에 의존하고 있다. 하지만 강의평가를 읽을 때마다 포인트가 차감되고 같은 강의의 강의평가를 여러 개 읽어야 강의에 대한 예측이 가능하다는 점 등 불편함이 크다. 그렇다면 빅데이터를 활용해보면 어떨까? 통계프로그램 R과 텍스트마이닝 기법을 이용해 뮤존에 올라온 강의평가들을 분석해봤다. 워드 클라우드1을 보면 인문캠 A교수의 영어강의에 대한 분석결과가 나와 있다. △좋다 △중요한걸 알려준다 △친절하다 △과제 등의 키워드가 있다. 워드 클라우드 분석 결과 교수님이 친절하시고 중요한 걸 잘 알려주신다는 예측이 가능하다. 워드 클라우드2는 인문캠 B교수의 민주주의와 현대사회 강의에 대한 분석결과이다. △프린트 △지루 △PPT △출석 △중요시 △발표 △기말고사 등의 키워드가 있다. 워드클라우드 분석 결과 PPT를 통해 수업이 진행되고 출석을 중요시하며 발표점수가 있음을 예측할 수 있었다.

한 때 우리대학 수시전형 중 하나였던 적성고사에서 내신 1등급의 차이를 극복하려면 시험에서 한 문제를 더 맞혀야 한다고 알려져 있다. 이 말이 사실인지 알아보기위해 내신등급을 독립변수, 적성고사 성적을 종속변수로 설정하여 12년부터 14년까지 시행된 적성고사 전형의 데이터를 분석해봤다. 엑셀의 회귀분석 툴을 이용해 3년간의 데이터를 바탕으로 입학성적을 분석해보니 다음과 같은 회귀식이 나왔다.

Y=88.57567+(-1.54937*내신등급) 이 식은 평균적으로 내신 등급이 1등급 낮아질 때마다 적성고사 문제 약 1.5문제를 더 맞혀야 한다는 것을 의미한다. 통계1의 X1에 대한 P값을 보면 약 0.03이라고 쓰여 있는 걸 볼 수 있다. 일반적으로 P값이 0.05 미만이면 독립변수가 종속변수에 미치는 영향이 유의미하다고 할 수 있다. 이를 통해 이 통계의 데이터들이 서로 유의한 상관관계를 가지고 있음을 알 수 있다. 위의 데이터를 기반으로 성적의 분포도와 추세선을 구해보았다. 여기서 Y = -0.0272x+6.2879라는 수식을 얻었고 이를 통해 내 내신에 필요한 적성고사 표준점수를 알 수 있다. 예를 들어 내 내신이 4.0이라면 적성고사에서 84.11점을 받게 되면 합격할 수 있다는 예측이 나온다. 물론 이 예측이 100% 정확한 것은 아니다. 다만 내 내신을 기준으로 필요한 적성고사 수준을 예측할 수 있다는 점에서 활용에 따라 유의미한 데이터가 될 수 있다.

이외에도 얼마 전 출시된 ‘밥탐’ 애플리케이션은 학생들의 식권 판매 현황을 분석해 예상식수 인원을 예측해 잔반을 줄이고 메뉴별 매출 추이 분석을 통해 식단을 선정할 수 있다. 또한 JobCafe 취준생을 대상으로 △선호기업 △학점 △전공 등의 데이터를 활용해 맞춤형 정보를 제공할 수 있다.

빅데이터, 이제는 익숙해지자

위의 사례를 통해 빅데이터의 정의와 활용방법에 대해 매우 간단히 알아보았다. 독자들도 이제는 빅데이터가 활용된 자신 주변의 환경이 하나하나 떠오를 것이다. 서울시 심야버스, 신입사원 채용, 창업 아이템 선정, 언론의 트렌드 분석, 경찰의 지역배치 등 이슈화 된 지 오래 지나지 않았지만, 빅데이터는 그동안 알게 모르게 우리 생활에 녹아있었다. 빅데이터는 활용 가능한 분야가 다양하고 그 정확성이 높다. 많은 장점과 무한한 활용 가능성을 가진 빅데이터로 트렌드 변화의 바람이 불고 있다. 융합의 시대라고 불리는 만큼 데이터를 저장, 분석하여 사용자의 요구를 발견해내는 것에서 끝나선 안 된다. 다른 학문과의 융합으로 삶의 질을 한층 높일 방법을 찾는 매력적인 빅데이터의 세계에 익숙해져 보자.

장지빈 기자 jb9992@mju.ac.kr

장지빈 기자 다른기사 보기

트윗하기