특정 영역에 모여있는 데이터에서 군집 패턴을 찾는다. 확률과 통계를 기반으로 함수를 만든다. 데이터 사이언스와 엔지니어링은 머신러닝과 딥러닝으로 이어진 중간 관문을 굳건히 지키고 있다. 지금 우리가 수집하는 데이터만으로 이 함수를 만들 수 있을까? 이 함수에 오류는 없을까? 재현율 증명과 검증을 토대로 부족한 데이터를 채워야 한다. 데이터 수집, 정제, 탐사 분석, 모델링, 검증, 시각화 등 모든 단계를 허투루 여겨선 안 된다. 우리는 지금 쌓여가는 아파치 웹서버 로그에서 패턴을 찾을 수 있는가? 쌓인 로그는 충분한가? 데이터 사이언스와 엔지어링은 가설과 설계를 위한 끝없는 질문에서 시작한다. – 조병승 편집장
정제된 데이터가 있다면, 혁신할 수 없는 산업이 있을까? 이제 데이터의 중요성은 그만 말해도 될 것 같다. 이미 데이터에 커리어와 비즈니스를 맡기는 엔지니어가 많이 있다. 마소 395호 데이터 특집에서는 학계, 금융, 의료, 게임, 행정, 스포츠 등 언제나처럼 다양한 산업에서 사용되는 기술 이야기를 모았다. 주변에 적용된 데이터 기술을 확인하며 새로운 아이디어가 떠오를지도 모른다. 짜릿한 데이터 세계로 당신을 초대한다. – 오세용 기자
SCHEMA
S1. 데이터 사이언스, 타이디버스로 향하다 – 이광춘
S2. 데이터 분석가는 어떤 스킬셋을 가져야 하는가 – 서희
OPINIONS
O1. 일상을 기만하는 데이터와 거리 두기 – 김도균
O2. 금융업계에 부는 데이터 사이언스 바람 – 권용진
O3. 데이터 기반 의료를 향해 – 박찬익
O4. 데이터는 스포츠를 어떻게 바꿨는가 – 김인범
O5. 연습용 데이터 세트를 찾아라 – 오세용 기자
FUTURE
F1. 인문학도, 데이터 사이언티스트가 되다 – 유예진
F2. 데이터 분석가로서 첫 발을 내딛으며 – 김나현, 오희령
F3. 홍콩에서 보내는 편지: 놀고먹던 사람이 연구자로 살기까지 – 홍원의
TECHNOLOGY
T1. 데이터로 본 검색 서비스 – 윤창호, 조창래
T2. 엘라스틱 스택 기반 데이터 분석 – 조인석
T3. 데이터 엔지니어를 위한 아파치 임팔라 안내서 – 임상배
T4. AI 네트워크에서 개인 정보 보호와 보안 – 김민현
T5. 이미지 데이터 분석의 특징 시각화와 스타일 전이 – 김영민
WORKS
W1. 메르스맵을 되돌아보며 – 박순영
W2. 2018 빅콘테스트를 마치고 – 이은조, 장윤제
W3. 굿닥의 데이터 플랫폼 도입기 – 김택규
W4. 케라스팀이 들려주는 협업 그리고 머신러닝 이야기 – 조아라, 케라스팀
W5. 핵심 비즈니스를 혁신하는 데이터팀 이야기 – 김상우
APPLIED
A1. 파이썬으로 계좌 거래 목록 수집하기 – 이태화
A2. 파이썬으로 특정 키워드 사업 공고 알림 받기 – 심경섭
A3. 클라우드 서버리스 아키텍처로 실시간 검색어 분석하기 – 변규현
A4. Kepler.gl을 이용한 2017년 서울 내 인구이동 시각화 – 이영민
A5. 캐글 데이터를 비주얼 스튜디오 코드로 톺아보기 – 김영하
A6. 데이터 시각화의 올바른 차트 유형 고르기 – 배준오
RESEARCH
R1. 회귀 모형을 통한 프로모션 효과 분석, promotionImpact – 안태희, 엄혜민
R2. 자연어 처리와 언어 모델 – 최현영
R3. 게임 로그를 활용한 봇 분류 모델 – 강병수, 서상덕, 안진옥
R4. 반복 크롤링 작업 시 크론탭은 이제 그만, 아파치 에어플로우로 가자 – 배준현, 김도형
ETC
E1. 가치를 만드는 머신러닝 – 마이클 후스, 임현민
E2. 당신의 드라이빙 데이터는 얼마입니까 – 심상규, 아모랩스
E3. 데이터와 인문학 – 오세용 기자
내 꿈은 여전히 사람의 마음을 읽는 마법사다. 그리고 나는 데이터 속에 가치를 발굴하는 마법을 공부하고 있다. – 유예진
나는 분명 철두철미하게 상황을 고려했다고 생각했는데, 유저의 행동은 내 상상 이상으로 다양하고 참신했다. – 김나현, 오희령
프로젝트가 커지기 시작하면서 자연스럽게 엘라스틱 스택을 접하게 됐으며, 순식간에 마법 지팡이와도 같은 환상적인 오픈소스에 빠져들었다. – 조인석
조금 귀찮을 수는 있지만, 프로그램으로 만들어서 활용하면 ‘왜 여태 이걸 손으로 했지’라고 생각하게 되는 경우가 많다. – 이태화
에어플로우를 사용하면 전체 프로세스를 한눈에 쉽게 살펴볼 수 있을뿐 아니라, 각 프로세스의 단계별 진행 현황을 쉽게 확인할 수 있다. – 배준현, 김도형
데이터 과학자는 통계 데이터를 다루면서도 소프트웨어 역량을 통해 필요한 데이터를 직접 다루고 모델링 및 서비스를 할 수 있는 사람이라고 이야기할 수 있다. – 서희
인구이동 데이터는 필연적으로 출발지와 도착지가 있기에 항상 위치정보를 포함한다. 따라서 해당 데이터를 지도 위에 시각화할 수 있다면 훨씬 많은 것을 볼 수 있다. – 이영민
2018 빅콘테스트가 끝났다. ‘SHAP Value Analysis’나 ‘LIME’을 이용해 모델 해석을 시도한 팀도 있었다. 대다수가 학생으로 구성된 팀임에도 불구하고, 비교적 최근에 등장한 이런 최신 기법을 적극적으로 활용한 점은 무척 놀라웠다. – 이은조, 장윤제
프로그래밍을 잘 모른다고, 문제가 생긴다고 해서 너무 겁먹을 필요는 없을 것 같다. 대부분 개발자가 프로그램을 개발하는 것보다 문제를 수정하는 데 시간을 보낸다. – 심경섭
데이터와 정보 보호, 기술을 활용한 치료와 진단 그리고 예방까지, 그것이 의료 자체가 됐건, 연구가 됐던, 기술 개발이 됐건, 늘 중심에 사람을 둘 수 있기를 바란다. 선택이 아닌 필수로 말이다. – 박찬익
텐서플로 2.0에서는 여러 고수준 API로 인한 사용자 혼란을 줄이기 위해, 단일 API로 통합해 고급 기능을 제공하기로 했다. 그리고 단일 API로 ‘tf.keras’가 선정됐다. – 조아라, 케라스팀
사용자가 없으면 서비스도 없다. 사용자를 위한 서비스만이 장기적인 관점에서 가장 올바른 길임을 기억해야 할 것이다. – 윤창호, 조창래
서비스에서 만들어지는 데이터를 이해하려면 개발 쪽 지식만으로는 부족하다. 사업 방향이나 목적, 이유 등을 정확히 알고 있어야 한다. – 김택규
도메인을 검색해봤더니 놀랍게도 ‘mersmap.com’ 도메인을 구매할 수 있는 상태였고, 그 사실을 알자마자 바로 거래처와 미팅 중에 그 도메인을 결제했다. – 박순영
데이터 권한 비대칭은 지난 20여 년 동안 웹 서비스 발전으로 이어졌다. 하지만 데이터 권한 비대칭은 이제 과거 모델이 될 것이다. – 마이클 후스, 임현민