빅데이터 분석 전문 Column기반 DBMS

더 많은 사용자가 보다 신속하면서도 비용 효과적으로 더 많은 데이터를 저장, 검색하고 활용할 수 있습니다.

 

데이터를 매우 전략적인 자산으로 인식하는 기업이 점점 늘고 있지만 모든 구성원에 대한 가치를 극대화하기는 결코 쉽지 않습니다. 다수의 기업에서 즉각적인 통찰력이 필요한 데이터 분석가, 복잡한 ad-hoc 쿼리를 수행해야 하는 데이터 사이언티스트, 개인화 된 dashboard를 필요로 하는 임원 등 다양한 구성원의 요구사항을 적절히 관리하지 못하는 워크로드 관리 문제를 안고 있습니다. 이러한 기업이 가치 창출 기간을 최대한 단축하고 총소유비용(TCO)을 낮추려면, 데이터를 신속하게 검색하여 미활용 가치를 발굴해야 하며 아울러 그러한 데이터를 가장 적절한 스토리지 계층에 저장해야 합니다.HP Vertica “Dragline”은 Project Maverick의 Live Aggregate Projections과 동적 혼합 워크로드 관리, 확장된 SQL on Hadoop과 비용 최적화된 스토리지, 전문화된 분석 등을 비롯한 새로운 기능을 제공함으로써 분석 중심 기업의 가장 까다로운 요구사항에 부응합니다. 이 릴리스는 다음과 같은 비즈니스 문제와 기회에 대처하는 데 필요한 분석을 지원합니다:
  • 유틸리티 및 에너지 부문이 스마트미터 이니셔티브를 추진하고 고객에게 소비패턴과 궁극적인 에너지 비용 절감 방법에 대한 분석을 제공하고, 통신사가 일부 국가에서 법률로 요구되는 개인화된 과금 서비스를 제공함으로써 시장 점유율을 확대하고 경쟁에 차별화를 기할 수 있습니다.
  • 분석가, 보고서 작성자 및 데이터 사이언티스트등의 혼합 워크로드 환경을 동적 자원 관리를 통해 효율적으로 관리함으로써 하드웨어 및 시스템 자원을 효율적으로 사용하여 전반적인 총소유비용(TCO)를 줄일 수 있습니다.
  • 불만 고객을 파악하여 사전에 1:1로 특별등 프로모션을 제시하는 다양한 소셜 미디어 정서 분석을 통해 고객 이탈을 예측하고 방지할 수 있습니다.
  • 빅 데이터와 위치 데이터를 결합하여 지리적으로 정확한 표적 광고를 통해 개인화된 마케팅을 구현합니다. 이제, 유통업체는 브랜드 선호도, 소비자의 감성을 자극할 수 있는 열정점(passion point)과 동적 모바일 행동을 위치와 결합하여 가장 적절한 고객을 마케팅 대상으로 삼을 수 있습니다.

 

Vertica Architecture의 차별성

Pure MPP 아키텍처

HP Vertica는 별도의 마스터 노드를 분리하지 않고 모든 노드가 동일한 역할을 수행하는 pure-MPP 구조입니다. 또한 클러스터 구성이나 노드 구성에 특별한 하드웨어를 필요로 하지 않기 때문에 비용적인 강점이 있으며 복잡한 구성이 불필요하여 클러스터 구성 과정이 매우 간단하고 빠릅니다.
vertica_img_02

HP Vertica

  • 동일 스펙/ 동일 구성의 서버
  • 단순한 구성
  • 아무 서버에나 작업을 요청하면 전 노드가 벙렬 수행
  • 시장의 신뢰도를 확보한 서버 사용
  • 관리 및 사용 용이성 확보

Column 기반 DBMS – Vertica

HP Vertica는 별도의 마스터 노드를 분리하지 않고 모든 노드가 동일한 역할을 수행하는 pure-MPP 구조입니다. 또한 클러스터 구성이나 노드 구성에 특별한 하드웨어를 필요로 하지 않기 때문에 비용적인 강점이 있으며 복잡한 구성이 불필요하여 클러스터 구성 과정이 매우 간단하고 빠릅니다.

Column 기반 데이터 압축/인코딩

서로 다른 데이터 타입이 혼재되어 있어 압축률이 좋지 않은 row 기반 DBMS와는 달리, 동일한 데이터 타입을 가지는 column 단위로 데이터를 저장하는 column 기반 DBMS는 높은 압축율을 제공합니다. HP Vertica에 내장된 12가지 데이터 인코딩 및 압축 알고리즘은 90% 이상의 압축율을 제공하여 스토리지 사용량을 효과적으로 절감할 수 있도록 합니다.
  • Live Aggregate Projections를 통해 시장 점유율을 확대하고 경쟁에 차별화를 기할 수 있습니다.
  • 새로운 혼합 워크로드 관리를 통해 신속한 분석 통찰력을 확보하기 위한 하드웨어 및 시스템 자원을 효율적으로 활용합니다.
  • 새로운 sentiment analysis를 통해 고객 이탈을 예측하고 방지합니다.
  • 사용 빈도가 낮은 데이터와 빈도가 높은 데이터를 적절하게 비용 최적화된 스토리지에 저장함으로써 비용을 절감합니다.

 

vertica_img_03

 

비용 효과적인 빅 데이터 저장

강력한 분석 플랫폼의 세 가지 원칙 중의 첫 번째는 데이터가 사내의 어디에 위치해 있든, 모든 데이터에 액세스하고 저장할 수 있어야 한다는 점입니다. 사용자들은 빅 데이터를 Hadoop, 데이터베이스 혹은 클라우드 등 어느곳이라도 저장할 수 있어야 합니다. 이는 영역에서 소요되는 비용 모델이 서로 다르기 때문입니다. 다중 계층 데이터 저장 방식은 일상 업무에 중요한 사용 빈도가 높은 데이터에 대한 신속한 액세스를 제공하며, 중요성과 적시성이 떨어지는 데이터는 저가의 스토리지에 저장합니다.

비용 최적화된 스토리지

전략적인 정보 라이프사이클 관리(ILM) 계획을 이행함에 있어, HP Vertica “Dragline”의 비용 최적화 스토리지는 비용 효과적인 분석을 위한 다중 스토리지 계층 관리에 도움이 될 수 있습니다. HP Vertica Analytics Platform을 이용하면 데이터를 이동시키거나 커넥터를 사용할 필요 없이 HDFS에 저장된 다량의 데이터에서 고급 SQL 쿼리를 실행할 수 있습니다. 또한 더 빠른 성능의 심층 분석이 필요할 경우에는 HDFS상의 데이터를 HP Vertica로 이동시킬 수 있습니다.

성능 기준에 적합한, 세밀한 액세스 제어

관리자는 직원에게 몰래 접근하여 신분을 도용하거나 범죄 행위를 모의하려는 범죄자들의 악용을 방지하기 위해 항상 경계심을 늦추지 않아야 합니다. 일부 기업의 경우에는, 상황이 더 심각합니다. 일례로, 금융기관에는 개인식별정보(PII)에 대한 규정이 있는 금융서비스 현대화법(GLBA)이 적용됩니다. 의료 부문의 경우, 건강보험 이전 및 책임법(HIPAA)이 개인 식별이 가능한 건강 정보의 프라이버시를 보호합니다. HP Vertica “Dragline”을 통해 이제는 조직 내의 다양한 역할에 따라 민감한 정보를 숨기거나 마스킹할 수 있습니다. 따라서 개인정보 보호 및 보안을 위해 PII에 대한 액세스를 세밀하게 통제할 수 있습니다.

다중 연결 백업과 파일 최적화

HP Vertica 백업을 실시하고 있다면, 이는 파국적인 데이터 손실의 방지에 대한 중요성을 잘 알고 있다는 방증입니다. 하지만, 빅 데이터 처리 시에는 전송해야 할 데이터는 많은 반면에 이용할 수 있는 대역폭은 한정되어 있습니다. 이러한 경우 파일 최적화를 통해 백업 및 북구 시간을 1/2로 단축하여, 잠재적 하드웨어 고장으로 인한 영향을 최소화할 수 있습니다.

 

 

신속하고 간편한 데이터 검색

강력한 분석 플랫폼의 세 가지 원칙 중 두 번째는 한층 폭넓은 분석으로 반정형(semi-structured) 데이터를 검색할 수 있는 기능입니다. 제대로 활용되지 않고 스토리지의 자리만 차지하고 있는 다크 데이터(dark data)가 있고 그 데이터가 분석적 가치를 제공할 수 있는지 여부를 파악해야 할 필요가 있을 경우, HP Vertica Flex Zone을 이용하여 탐색적 분석을 수행하면 됩니다. Vertica 7 릴리스에 기반을 둔 HP Vertica Flex Zone은 훨씬 더 다양한 방식으로 데이터를 수집하며 자동 스키마화(auto-schematization)를 적용 할 수 있으므로 다크 데이터 검색이 한층 용이해집니다.

HP Vertica Flex Zone의 기능 개선

HP Vertica Flex Zone은 소셜 미디어, 센서, 로그 파일, 머신 데이터와 같은 정형 데이터 및 반정형 데이터를 신속하고 간단하게 로드, 검색하고 분석할 수 있는 기능을 제공합니다. 스키마를 작성하지 않고도 사용자가 선호하는 업계 표준 비즈니스 인텔리전스(BI)와 시각화 도구를 이용하여 HP Vertica의 Flex Zone 데이터를 검색할 수 있습니다. 현재 HP Vertica Flex Zone에는 구입 후 바로 사용할 수 있는 구문 분석기와 오픈 API가 추가로 포함되어 있습니다. Vertica 고객은 Parquet, Thrift, Avro, CEF 등을 비롯한 훨씬 더 다양한 데이터 형식을 검색할 수 있게 되었습니다. 이제 기업은 직접 선택한 BI/데이터 환경에서 더 많은 데이터를 신속하고 간단하게 수집, 검색하여 시각화할 수 있습니다.

텍스트 분석

SQL, R 또는 Python을 이용한 분석은 매우 효과적일 수 있지만, 때로는 보다 자연스런 검색 언어를 사용하여 검색해야 할 경우가 있습니다. HP Vertica “Dragline”을 이용하면 기계 로그와 트위트 또는 제품 리뷰와 같은 단문의 정서 분석을 포함한 다양한 텍스트 데이터의 무형식 텍스트(free-form text)를 검색할 수 있으므로, 조회하기 전에 데이터에 대한 이해를 제고할 수 있습니다.

빅 데이터 통합

HP Vertica와 MapR 솔루션을 이용하면, 노드를 사전 할당할 필요 없이 동일한 하드웨어를 사용하여 MapR과 HP Vertica를 실행할 수 있습니다. 따라서 Hadoop, HP Vertica Flex Zone 또는 HP Vertica Enterprise에 저장되어 있는 데이터의 분석을 수행하려는 비즈니스 사용자의 중단을 방지할 수 있습니다. 또한 데이터의 사용 빈도에 따라 다양한 레벨의 스토리지를 지정하여 비용을 최적화할 수 있습니다. “Dragline”의 플러그 가능한 HDFS 파일 시스템 기능 향상으로, 이제는 여타 Hadoop 배포버전도 Vertica에 완벽하게 통합될 수 있습니다.

서버 플랫폼

HP Vertica 지원 서버 플랫폼:

  • Red Hat Enterprise Linux 5, 6
  • USE Linux Enterprise Server 11
  • Oracle Enterprise Linux (Redhat Kernel) 6
  • Debian Linux 6, 7
  • CentOS 5, 6
  • Ubuntu 12.04 LTS, 14.04 LTS

클라이언트 플랫폼

지원 클라이언트 인터페이스 및 플랫폼:

  • JDBC on all Java 5, 6 또는 7 호환 플랫폼
  • ODBC for Windows, Linux, Solaris, AIX, HP-UX, OS X
  • Perl and Python on Linux, Solaris, AIX, HP-UX, OS X
  • Microsoft .NET Framework 3.5 SP1 이상의 ADO.NET 제공자
  • Hadoop MapReduce, HDFS, HCatalog 및 Pig용 커넥터
  • HP Vertica에서 입수할 수 있는 Informatica and Microsoft BI Suite용 커넥터.
  • IBM, Pentaho, Syncsort 및 Talend를 비롯한 벤더의 일반적인 데이터 통합 도구용 커넥터. 자세한 정보는 벤더에 문의하시기 바랍니다.
HP Vertica ODBC 드라이버는 ODBC 3.5와 호환됩니다.
HP Vertica JDBC 드라이버는 JDBC 4.0 호환됩니다.