facebook이 선택한 분석용 데이터베이스 Vertica

Vertica는 분석 DBMS로 그 성능과 안정성을 인정받고 있습니다. 해외의 다양한 사례 (facebook, AT&T, Bank of America)를 통해서도 규모와 성능을 확인할 수 있으며 또한 국내에서도 주요 은행, 통신사, 제조업 등 굵직한 사이트에 공급을 통하여 만족스러운 고객 반응을 얻고 있습니다.
facebook은 모르는 사람이 없는 초대형 IT 기업입니다. 전세계를 대상으로 하고 있으며, 사용자들이 등록하는 텍스트, 사진, 음성, 영상 등의 총량도 어마어마하지만, 실시간으로 전세계에서 수집되는 데이터의 처리 속도와 규모도 대단합니다. 게다가 성장률도 높기 때문에 앞으로 필요로하는 데이터 관리 기능 및 분석 기능의 성능 기대치가 매우 높습니다.
facebook 에서는 두 단계의 엄정한 PoC 과정을 통하여 차기 분석용 데이터베이스로 Vertica를 선정하고, 현재 2단계까지 도입을 완료한 상태입니다.

페이스북의 니즈

  • 페이스북을 분석하기 위한 필요가 급격하게 증가하였습니다. 계속 늘어가는 데이터를 대상으로 빠르고 정확한 분석이 필요합니다.
  • MapReduce 방식으로는 속도에 대응할 수 없었으며 또한 보안 문제도 만족스럽지 못하였습니다.
  • In-Memory DB 는 가격이 너무 높고 또한 아직 충분한 안정성이 확보되지 않았습니다.
  • 추가 저장 공간의 지속적인 필요
    : 3 ~ 5 PB(Peta Bytes)의 공간이 당장 필요하였고, 3년 내에 5 ~ 20 PB 공간이 추가로 필요하다고 예측하였습니다.

MPP Database에 대한 필요

  : 강력한 분석이 가능한 DB
  : 충분한 보안 성능이 확보된 DB
  : 안정성과 확장성/대용량 지원이 확실한 DB

페이스북의 Vertica 적재 데이터 흐름

1. 전세계에서 발생하는 데이터 로그를 우선 Hadoop 파일 시스템에 적재합니다.
  – 이 작업 규모 자체가 전세계를 대상으로하는 대규모의 작업으로서 총 약 6만여개의 노드를 갖는 2개의 클러스터에서 작업을  수행합니다.
2. 이렇게 쌓인 데이터를 준실시간 단위로  Vertica 에 적재합니다.
  – 이 데이터를 이용하여 하루에도 수만번의 분석 작업이 매우 빠른 속도로 일어나며 페이스북 사용자의 사용 패턴, 기업/광고의 분석 등 주요한 작업을 매우 빠르게 수행합니다.

facebook에서는 Vertica 를 사용하고 있습니다.

  • 1단계에서 주요 데이터(회계 등)에 대한 적용을 시작으로 현재는 모든 분야의 데이터를 대상으로 적용하고 있습니다. (2014년 말 2단계 완료)
  • 340 노드의 클러스터 2개로 구성하고 있으며, 총 규모는 10 PB에 달합니다.
  • 데이터 사이언스 툴로서 Python과 R 을  통합하여 구성하였습니다.
  • 2018년 까지 약 20 PB 규모로 확장 계획을 갖고 있습니다.
HPE Vertica 는 pure MPP DBMS 로서 최고의 성능을 보유하고 있습니다.
Vertica 에 대한 문의는 쓰리웨어 영업 담당에게 연락을 주시기 바랍니다.