HP IDOL의 자동분류 기능

비정형 데이터, 프리 포맷, 음성 혹은 텍스트 정보를 쉽게 분류하는 방법은 빅데이터 처리에 있어서 중요한 작업입니다.

– 업무 기준 혹은 분류 기준에 따라 유입되는 데이터를 자동 분류함으로서 사람이 처리하는 분류 작업 보다 효율성과 정확성 면에서 큰 효과를 얻을 수 있습니다.

자동분류 기능의 효과

분류 작업의 효율성

- 어떤 사람이 하느냐에 따라 다르게 분류될 수 있는 문제를 방지합니다.

  내용을 분류할 때, 어떤 직원은 이 문제를 A1 으로 분류하지만, 다른 직원은 A2로 분류할 수도 있습니다.
  또한 같은 직원이 분류하더라도 언제 하느냐에 따라 다른 분류를 할 수도 있습니다.

- 다시 분류 작업을 수행할 경우 일관성있는 결과를 얻을 수 있습니다.

  분류 기준을 바꾸거나, 과거의 분류 작업을 다시 실행할 경우 일관성있는 결과를 얻을 수 있습니다.

- 분류 기준이 얼마나 합리적인지 파악할 수 있습니다.

  서로 배타적이지 않고 유사한 분류 기준이 얼마나 있는지 (모호한 분류 기준으로 구분이 어려운 경우) 파악할 수 있습니다.
  분류 간의 타당성을 검사할 수 있습니다.
  분류 기준으로 나눌 수 없는 문서들이 많을 경우 (적합한 분류로 구분하기 어려운 경우) 이에 대한 인사이트를 얻을 수 있습니다.

분류를 통한 새로운 인사이트 확보

- 전체적인 데이터의 아웃라인, 세부적인 내용, 분류별 크기를 통한 구성 내용을 확인할 수 있습니다.
- 데이터의 큰 흐름, 트렌드(추세)를 확인할 수 있습니다.
- 새로운 연관관계를 파악하고 급작스러운 추세의 변동을 빨리 확인할 수 있습니다.

HP IDOL을 이용한 데이터 분류 방법

HP IDOL은 분류 처리를 위한 별도의 모듈을 탑재하고 있어서 분류, 분류체계 구성, 기준 설정, 새로운 발견에 있어서 편리성을 제공합니다.
이런 작업은 Autonomy Collaborative Classifier, 즉 ACC 를 이용하여 수행합니다.

ACC(Autonomy Collaborative Classfier)

ACC를 이용하여 정보의 분류 체계를 구성하고 색인을 관리할 수 있습니다. 또한 HP IDOL의 프레임워크 안에서 다양한 검색 및 분류 기능을 구성할 수 있습니다.
ACC에는 여러 모듈이 탑재되어 있습니다. 특히 Taxonomy 관리 모듈이 가장 중요한 기능을 수행합니다.
Taxonomy를 생성, 관리, 시험할 수 있는 모듈로서 보다 다양하고 편리한 정보 활용이 가능하도록 분류를 관장하는 모듈입니다.

Taxonomy는 정보를 여러 카테고리에 분류하기 위한 계층구조라고 할 수 있습니다.

많은 문서들이 유입되면서 해당 문서들을 의미 계층에 맞게 분류할 수 있는 기능이 필요한데, 이러한 기능을 IDOL 분류 솔루션이 가능하게 합니다.

IDOL의 Taxonomy 구성 방안

IDOL에서는 Taxonomy를 효율적으로 구성하기 위한 다양한 방안을 제시합니다.
Taxonomy를 구성하기 위한 방법 중 하나로 사용하고자 하는 분류체계와 이에 해당하는 문서 집합(분류에 맞는 문서)을 이용하여 자동으로 Taxonomy를 구성할 수 있습니다.
ACC 의 Taxonomy 모듈을 이용하여 분류체계에 적합한 Taxonomy를 생성합니다.
Taxonomy building
이렇게 구성한 Taxonomy를 이용하여 새로운 문서들에 대한 자동 분류 기능을 수행할 수 있습니다.
또한 Taxonomy는 관련 전문가(해당 분야 전문가 혹은 검색/분석 전문가)가 직접 수정, 구성할 수 있으며,
전문적인 Taxonomy 관리 작업을 통하여 보다 효율적인 분류 작업을 지원할 수 있습니다.