한국인포매티카 IIR 미디어 브리핑

인포매티카(Infomatica)는 새로운 데이터 관리 솔루션 ‘아이덴티티 레졸루션’ (Infomatica Identity Resolution, 이하 IIR)을 출시하면서, 이를 소개하는 시간을 가졌다. IIR은 DB 데이터에서 찾아내기 힘든 유사 데이터들을 검색, 분석이 가능하게 해 주는 솔루션이다.

지금까지의 데이터 검색이 단순히 키워드나 와일드카드를 사용한 수준에 그쳤지만, IIR은 검색어나 표현에서 언어학적 유사성 등을 고려하여 유사 데이터를 판단하고 결과를 출력해 준다. IIR이 가장 많이, 가장 효과적으로 사용될 수 있는 곳은 데이터 통합 분야이다. 기업이 분산화된 고객 데이터들을 단일화하면서 생기는 중복성의 문제들을 IIR은 어느 정도 피해갈 수 있게 해 준다.

▲ 한국인포매티카 정인호 본부장

인포매티카 정인호 본부장이 직접 프리젠테이션을 진행하였다. 정인호 본부장은 이 자리에서 “2008년 연말 결산과 함께, 새로운 솔루션을 소개하는 시간을 만들게 되었다”라고 밝히며, “오늘 소개하는 이 솔루션은 기존의 제품에서 찾아 볼 수 없는 새로운 차원의 솔루션이다”라고 자랑스럽게 언급했다.

데이터품질 저하의 원인은 여러 가지가 있다. 이 데이터 품질을 검증하는 데는 잘 알려진 대로 여섯 가지의 지표가 있다. 완전성, 적합성, 일관성, 정확성, 중복성, 무결성이 그것으로, DB와 SQL을 공부해본 사람에게는 익숙할 개념이다.

하지만 이를 기술적 측면에서 접근할 경우에는 다소 지표가 달라진다. 기술적 측면으로 적용할 경우엔 데이터의 형태, 범위, 도메인, 계산식, 무결성, 중복 등의 기준을 사용해 데이터 품질을 측정하고 이들의 개선을 통해 품질을 높이게 된다. 이 때 사용되는 툴이 현재 많이 사용되는 Data Quality Tool 들이다.

그런데 이 툴 또한 분명한 한계를 가지고 있다. 형태 등 다섯 가지 지표들은 기존의 도구를 사용해서 해결이 가능하지만, 중복 문제에 있어서는 예외가 된다. 다른 5개의 지표의 경우 데이터 형식이 정해져 있지만 중복의 경우엔 데이터가 비교적 자유롭게 들어가므로 수많은 변수가 생기고, 같은 내용을 다르게 표현하는 경우가 흔하게 나타나게 된다.

일반적으로 이름 필드가 이런 경우가 되고, 지금까지의 솔루션들은 이를 인식할 수 없었다. 이를 해결하기 위한 방법이 MDM이다. 완벽하게 중복을 해결하는 개념은 아니지만, 분산된 정보를 하나로 통합하여 가장 현실화된 데이터로 관리하는 개념이다. 데이터를 하나로 통합하면 중복이 사라질 것이라는 이론 아래 고객정보, 제품정보 등의 DB에서 이런 프로젝트를 수행하고 있다.

하지만 MDM에도 현실적인 어려움이 존재한다. 같은 항목이 상반된 코드명으로 들어갔을 경우엔 솔루션으로는 찾을 수가 없다. 현실적으로 이 경우에는 직접 눈으로 찾아야 하며, 이는 실제로 제조회사들에서는 이런 어려움을 겪는 일이 비일비재하다고 한다.

인포매티가의 IIR은 아이덴티티 시스템즈를 인수하면서 같이 인수한 솔루션이다. 1986년 처음 등장한 이후 20년이상 600곳 이상의 고객들이 사용한 검증된 솔루션이다. 60개 이상의 언어를 지원하며, 다른 언어의 데이터들 사이에서 상관관계 연결이 가능하다고 한다.

이는 위에서 봤던 데이터 입력 오류나 표현 방법의 차이, 확인 부족, 시스템 역량 부족 등으로 만들어지는 데이터 중복성 문제를 어느 정도 해결해 줄 수 있다. 또한 외국어 어원의 명사를 타 언어로 입력할 경우 생기는 미묘한 발음 표현 문제 등도 모두 감안하여 처리해 주는 솔루션이다. 0과 1이 정확히 구별되는 디지털 검색의 맹점을 어느 정도 극복할 수 있게 해 주는 것이다.

IIR은 검색 결과에서 스코어링 시스템을 적용했다. 이 솔루션을 실제 적용했을 때 자체적으로 데이터를 분석하여 유사성을 점수로 표현하여 사용자가 비교적 간단히 판단할 수 있게 해 준다.

한편, IIR은 다양한 커스터마이즈가 가능하며, 이를 통해 신뢰도 수준의 조절이 가능하다. 실제 적용 예로는 호주 이민국이 있다. IIR은 호주 이민국의 비자 발급 프로세스에서 발생하는 미묘한 상황들을 조절해 사용하기 쉬운 구조임을 증명해냈다.

IIR은 20년 이상의 전통을 가지고 있고, 이미 많은 시스템에 적용되어 많은 적용사례가 있다는 것과 기존의 시스템을 그대로 활용하면서 덧붙여서 IIR을 올려 사용할 수 있는 형태가 제공된다는 것, 우수한 퍼포먼스, 다국어 교차검색 가능 등의 장점이 있다.

이런 장점들 덕분에 많은 공공기관과 금융기관, 보험사, 그 외의 산업계에서의 고객을 가지고 있다고 한다. 주로 공공기관에서는 출입국 관리에 많이 사용되는데, IIR의 유연함과 효율성이 잘 나타나는 사례라고 할 수 있겠다.

금융기관 쪽에서는 외국에서는 사회보장 번호를 사용하거나 이도 없이도 계좌개설 등이 가능한 곳이 있는데, 이 경우 고객의 조회에 주로 사용된다고 한다. 금융기관에서는 고객 그 자체가 자산이므로, 상당한 신뢰성 없이는 진입하기 어려운 분야인데, IIR은 해냈다.

보험업계에서도 많이 사용된다. 보험회사는 상품마다 각각 데이터베이스를 가지고 있으며 현재는 이들 데이터의 통합이 많이 이루어지고 있다고 한다. 통신업계는 보통 마케팅 면에서 이를 사용한다.

특히, 한국의 경우에는 번호이동제 덕분에 중복 데이터가 대단히 많아 통신사 이동시 중복된 데이터가 대단히 많이 발생하게 될 수밖에 없는 구조다. 따라서 메일링 데이터 면에서도 이런 중복 데이터를 확인할 수 있다면 비용이 줄어드는 건 당연한 결과이다. 이외에도 많은 산업계에서 데이터 중복을 해결하기 위해 많이 사용하고 있다.

케이스 스터디 사례로는 호주 산업부의 사례가 소개되었다. 1350만 회사명 데이터베이스를 사용할 경우 예전 솔루션으로는 시스템 부하도 심하고 검색 결과 또한 제약이 심했지만, IIR을 적용한 뒤에는 다양한 유사사례를 더 적은 시스템 부하를 주면서 실시간으로 유사 중복 데이터까지 조회가 가능하다고 한다.

영국 안보부에서의 사례에서는, 5개 입국 경로로 600만 명이 움직이는데, 이를 실시간으로 체크하기 위해 IIR을 적용했다고 밝혔다. 이 때 다양한 검색 방법을 통해 적합한 정보를 전달해 처리할 수 있는 솔루션을 제공하고 있다고 한다. 공항과 같이 모든 대상을 주의관찰해야 되는 시설물에서의 성능 입증은 매우 중요한 레퍼런스 사례가 된다. 이런 업적을 통해 IIR은 고객층을 넓혀가고 있다.

다음은 데모 시연이 있었다. 데이터베이스는 실제 관공서에 데모로 시연했던 데이터라고 밝혔으며, 일본어를 한국어 형태로 입력한 형태의 데이터를 사용했다.

‘후지가와’를 검색할 경우 이와 유사한 형태의 데이터를 모두 검색 가능했다. 사진에서 확인할 수 있듯이 ‘후지가와’를 검색할 경우 문제가 되는 것은 ‘가’이다. 이는 외국어를 한글로 옮길 때 보통 발음대로 그냥 써버리는 문제 때문인데, ‘가’는 보통 가, 카, 까 등으로 쓰게 되고 이런 경우 DB에서는 모두 다른 데이터로 인식하며 검색할 수 없는 문제가 있었다.

하지만 IIR은 이런 경우에도 문제없이 검색이 가능하게 해 준다. 특정 단어가 생략되거나 형식이 미묘하게 달라진다고 해도 이를 모두 인식할 수 있으며 각종 약어나 발음상의 문제 등을 모두 인식할 수 있다. 또한 단어의 색인화 인덱스를 가지고 있고 이를 사용한 검색 시스템이므로 단어의 순서가 바뀌거나 해도 동일한 데이터라고 인식할 수 있다고 한다.

주소 검색 시연도 있었는데, 여기서도 유사한 데이터의 유연한 인식 범위를 확인할 수 있었다. ‘도오교오’를 검색했을 때, 실질적으로 같은 곳을 나타내는 ‘도쿄도’나 ‘도오꼬도’, ‘도교도’ 등을 모두 검색 결과로 내놓는다. 유사어 색인이 자연스럽게 구현되기 때문에 글자를 혼동해서 입력할 경우에도 원하는 답을 찾는데 도움이 된다.

한편, 이 솔루션은 엔진과 SDK형태로 제공된다. 이를 통해 솔루션의 커스터마이즈와 인터페이스 등의 직접 제작이 가능하다. 패키지 형태가 아니기 때문에 기존의 시스템과 데이터에서 단순히 함수 호출을 통해 기능을 사용할 수 있으며, 기존 시스템과 데이터의 변경 없이 새 솔루션을 적용할 수 있다는 장점이 있다.

이어서 진행된 질문답변 세션에서는 프리젠테이션에서 언급되지 않았던 부분에 대한 질문과 추가 언급이 있었다.

‘주 공략 대상이 어디인가’라는 질문에는 “이 솔루션은 실제 DB 관리자가 좋아할 만한 솔루션이다. 현재 DB에는 같은 항목이 다른 코드를 가지고 있는 경우가 대단히 많다. 특히 제조업체와 공공쪽 분야가 심한 편이며, 이 분야에서 주로 사용될 것이다”라고 밝혔다. 또한 이 IIR은 오라클 MDM 솔루션에 현재 번들화되어 제공되어 있다"는 답변이 나왔다.

자동화 솔루션의 문제는 자동화가 가끔 예기치 않는 결과를 내놓는다는 것이다. 이런 면에서, ‘중복된 데이터에 대한 정확한 판단에 대해 신뢰도는 어느 정도인가?’라는 질문도 나왔다.

여기서는 다소 재미있는 답변이 나왔다. “튜닝을 통해 끌어올릴 수 있지만, 최종적인 비교는 사람이 직접 눈으로 확인하는 것이 가장 적합하다. 직접 적용하게 할 수도 있지만 IIR이 해 주는 일은 확인이 쉽도록 리스트를 만들어 주는 것 까지다”라는 답변이 나왔다.

IIR의 적용 분야와 적용에 필요한 시간 등에 대해서는 “IIR은 애드온 형태의 솔루션이며 코어 형태로 제공되고 기존 시스템에 붙어 간다. 다양하게 사용할 수 있는데, 입력 부분에 붙어서 입력시의 에러를 줄이는 데도 사용되며 MDM 시스템의 코어 영역에서 데이터 중복을 줄이는 데도 사용될 수 있다”고 밝혔다.

인포매티카 관계자는 “실제 현장에서 이를 적용하는 기간이 주로 3주 정도라고 한다. 대부분 제품 안에서 내부 세팅 정도로 사용할 수 있으며, 간단하게 사용이 가능하기 때문에 리스크 부분은 적은 편이다. 기능 적용 또한 간단히 SDK를 불러와서 기존 솔루션에 붙일 수 있기 때문에 새로운 솔루션을 다시 배워야 한다는 부담 또한 거의 없다”며 도입 편의성 측면을 말미에 강조했다.

저작자표시 비영리 동일조건 (새창열림)

'국내 새소식' 카테고리의 다른 글

퀄컴 스냅드래곤(Snapdragon) (0)	2009.03.17
HP RCS 런치 이벤트 : 패널 세션 모음 (0)	2009.02.21
한국HP 'HP MiNi 1000' 신제품 발표회 (0)	2008.12.12
'조립 PC의 황혼기'를 맞이한 아키하바라 (2)	2008.11.05
엔비디아 '그래픽 플러스' 기자간담회 (0)	2008.11.05

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

한국인포매티카 IIR 미디어 브리핑

'국내 새소식' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

한국인포매티카 IIR 미디어 브리핑

'국내 새소식' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역