Car-tech

Cloudera Preps Hadoop for Enterprise

What is a Data Lake?

What is a Data Lake?
Anonim

새로운 릴리스와 데이터 관리 소프트웨어 공급 업체와의 새로운 파트너 관계를 통해 회사는 신흥 데이터베이스 기술을 제공 할 준비를 마쳤습니다. 관계형 데이터베이스의 대안으로 기업 시장에 구글이나 야후 같은 거대 기업에 의해 제공 될 것 "이라고 말했다.

"우리 회사는 대기업 웹 회사 일뿐만 아니라 은행, 병원, 보험 회사가 복잡하고 구조화 된 데이터를 모으고 Hadoop을 만들었습니다. "라고 Cloudera CEO 인 마이크 Olson은 말했습니다. "Hadoop은 새로운 방식으로 새로운 문제를 해결합니다."

비 SQL 또는 NoSQL 데이터베이스 중 하나 인 Hadoop은 다수의 컴퓨터에서 병렬로 데이터를 처리하기위한 프레임 워크 인 Google MapReduce를 기반으로합니다. 노드. 아파치 소프트웨어 재단 (Apache Software Foundation)이 오픈 소스 프로젝트로 개발하고있는 하둡 (Hadoop)은 적어도 커다란 변화하는 데이터 세트를 분석 할 경우 기존의 관계형 데이터베이스에 대한 대안을 제공한다.

SQL과 비동기 모두에서 작동 할 수있다. Cloudera는 Hadoop 배포 및 새롭게 릴리스 된 관리 도구 세트를 사용하여 중급 조직을위한 Hadoop을 패키징하고 있습니다. 두 패키지 모두 하둡 (Hadoop)에 대한 심층적 인 기술 경험이없는 조직이 소프트웨어를 실행할 수 있어야한다고 올슨은 말했다. 클라우드의 하둡 (Hadoop) 배포본 (CDH)은 다음과 같이 말합니다: "Google이 데이터를 스케일링하면 Hadoop을 사용할 수 있다는 신화가 있습니다. 단지 몇 테라 바이트의 데이터 만 분석하려는 사용자가 많습니다." 이전에 하둡 코어 (Hadoop Core)로 명명 된 하둡 공용 (Hadoop Common)을 기반으로 구축 된 사전 통합 소프트웨어 프로그램의 오픈 소스 패키지. 이 패키지에는 데이터웨어 하우스 인프라를 제공하는 Hive, Hadoop의 기본 데이터베이스 인 HBase; Pig,지도 축소 프로그램 용 컴파일러. Zookeper, 여러 서버와 MapReduce에서 응용 프로그램을 실행하기위한 스케줄링.

새로 출시 된 버전 3에는 Apache V2 오픈 소스 라이센스에 따라 회사에서 오픈 소스 프로젝트로 릴리스 한 세 가지 프로그램이 포함되어 있습니다. 하나는 Humeop에 데이터를로드하는 데 도움이되는 Flume입니다. 또 다른 새로운 기능은 작업 흐름 관리 소프트웨어 인 Oozie입니다. 마지막은 Hadoop을 관리하기위한 사용자 인터페이스를 제공하는 HUE (Hadoop User Environment) 코드입니다.

"HUE를 사용하면 누구나 분석가를 대상으로하는 애플리케이션을 구축 할 수 있으며 Hadoop 클러스터와 대화하는 방법을 알고 있습니다."

Cloudera Enterprise 패키지는 추가 관리 도구로 CDH 버전 3을 보완합니다. 이 새로운 소프트웨어는 오픈 소스가 아니기 때문에 관리자가 Lightweight Directory Access Protocol을 사용하여 액세스 관리를 제어 할 수 있습니다. Olson은 Cloudera가 지금까지 가입 및 컨설팅 비용으로 얻은 성과에 대해 논의하지 않았지만 2010 년 1 분기에는 그는 다른 산업 분야 중 금융 서비스, 통신, 소매, 정부 및 웹 상거래 회사들이이 기술에 관심을 보였다고 말했다.

"기업들이 하둡과 함께하는 일은 다양하다. 일반적으로이 사람들은 많은 장소에서 많은 데이터를 수집하고 있으며이를 정교한 분석에 적용해야합니다. "라고 올슨은 말했습니다. "금융 서비스는 사기 탐지를 위해 Hadoop을 사용하는 데 관심이 있습니다. 통신 분야에서는 네트워크를 최적화하고 고객 이탈을 줄일 필요가 있습니다."

Cloudera는 이러한 패키지를 제공 할뿐만 아니라 비즈니스 인텔리전스 (BI) 및 데이터 관리 소프트웨어 공급 업체로부터 Hadoop을 지원하기 시작했습니다. Olson은 2010 년 하둡 정상 회의에서 기조 연설을하면서 Santa Clara, 캘리포니아 주 화요일에 BI 공급 업체 인 MicroStrategy가 Hadoop 사용을 지원할 예정입니다.

또 다른 새로운 파트너는 오픈 소스 데이터 통합 ​​소프트웨어 공급 업체 인 Talend입니다. 이 회사는 Talend Integration Suite를 Hadoop 데이터베이스와의 인터페이스로 확장했습니다. 이 제품군을 통해 관리자는 단일 콘솔에서 여러 데이터 소스를 관리하고 집계 할 수 있습니다. Hadoop을 사용하면이 소프트웨어가 "자연적으로 데이터를 삽입 또는 검색하고 Hadoop 아키텍처 내에서 데이터를 처리 할 수 ​​있습니다"라고 Yves de Montcheuil의 Talend 마케팅 부사장은 말합니다.

Microstrategy와 Talend는 오픈 소스 또는 Hadoop을위한 상업적 관리 도구. 지난 주 Cloudera와 Quest는 Oracle 데이터베이스와 Hadoop을 연결할 수있는 소프트웨어를 개발하는 프로젝트에 착수했습니다. 5 월에 오픈 소스 비즈니스 인텔리전스 회사 인 Pentaho는 BI Suite가 Hadoop 데이터베이스와 함께 작동 할 것이라고 발표했습니다.

Yahoo CTO 인 Raymie Stata는 IDG News Service와의 인터뷰에서 Hadoop이 슈퍼 컴퓨터 구축의 필요성을 줄일 수 있다고 지적했습니다. 큰 데이터 세트를 분석 할 수 있습니다. 전통적으로 대용량 데이터 세트는 저장소에서 풀 서버 세트 인 수퍼 컴퓨터로 이동되어 분석됩니다. 반면, Hadoop은 분석 계산을 데이터가있는 곳으로 옮기므로 중앙 집중식 거대한 숫자 처리 기계가 필요하지 않습니다. 야후는 초기에 하둡 (Hadoop)의 수석 기여자였습니다.

클라우드 (Cloudera)가 제공하는 것 외에도, 하둡은 최근 IBM에서 상용화하고 있습니다. IBM은 최근이 기술을 사용하는 일련의 분석 서비스를 제공하기 시작했습니다.

Joab Jackson은 enterpise 소프트웨어 및 일반

IDG 뉴스 서비스

에 대한 기술 소식 @Joab_Jackson에서 Twitter의 Joab을 팔로우하십시오. Joab의 전자 메일 주소는 [email protected]입니다.