Windows Azure HDInsight 정식 제공 시작


Windows Azure HDInsight 정식 제공 시작

이 포스트는 10 월 28 일에 게시 된 Windows Azure HDInsight is now Generally Available! 의 번역입니다.

마이크로소프트는 최근 Windows Azure에서 HDInsight 서비스의 출시를 발표 했습니다 (영어). HDInsight는 마이크로소프트가 개발한 Hadoop 기반 서비스이며 클라우드의 전체 Apache Hadoop 솔루션을 제공 합니다.

HDInsight에는 다음과 같은 이점이 있습니다.

  • 친숙한 도구를 통한 통찰력 : PowerPivot 또는 Power View와 같은 마이크로소프트의 BI 도구 통합된 HDInsight에서 Hadoop을 사용하여 데이터에서 통찰력을 얻을 수 있습니다. 또한 Power Query를 사용하여 HDInsight를 포함하여 여러 원본의 데이터를 결합하거나 Excel 2013의 새로운 3D 매핑 도구 및 Power Map을 사용하여 데이터를 쉽게 매핑 할 수 있습니다.
  • 민첩성 : HDInsight는 민첩성이 높고, 기업 요구 사항에 대응할 수 있습니다. Hadoop 클러스터 배포 또는 프로비저닝까지 몇 시간 또는 며칠을 할애했지만, 일련의 리치 Powershell 스크립트를 사용하여 단지 몇 분 안에 완료할 수 있습니다. 더 큰 클러스터에 필요한 경우에는 현재 클러스터를 제거하여 큰 클러스터를 만들 쉽게 사용할 수 있습니다. 몇 분 정도 실행될 수 있으며 데이터가 손실될 수 없습니다.
  • 대형 프로덕션에 맞는 Hadoop: HDInsight는 엔터프라이즈급 보안 및 관리 효율성을 제공합니다. 또한 전용의 안전한 노드가 있으므로 Hadoop 클러스터의 보안을 유지할 수 있습니다. 또한 PowerShell 스크립트를 광범위하게 지원하여 Hadoop 클러스터를 쉽게 관리할 수 있습니다.
  • 풍부한 개발자 경험 : HDInsight는 .NET 및 Java와 같은 다양한 언어에 해당하는 강력한 프로그래밍 기능을 갖추고 있습니다. .NET 개발자는 LINQ to Hive를 사용하여 언어 통합 쿼리 기능을 최대한 활용할 수 있습니다.

HDInsight를 사용하기

HDInsight 클러스터 만들기에는 Windows Azure 관리 포털에서 [NEW] 버튼을 클릭하고 [DATA SERVICES] 메뉴에서 [HDINSIGHTS]를 선택하여 클러스터 이름, 클러스터 크기 (데이터 노드 수) 로그인 암호를 지정합니다.

클러스터에는 적어도 하나의 저장소 계정을 연결해야 합니다. 선택한 저장소 계정이 클러스터 영구 저장소 메커니즘 및 클러스터는 이 저장소 계정과 같은 위치에 만들어집니다. 일반 시작 시점에서는 미국 부, 미국 동부 나 북부 유럽의 저장소 계정에서만 HDInsight 클러스터와 연결할 수 있습니다. 사용자 지정 만들기 옵션을 사용하여 클러스터에 연결할 저장소 계정을 추가할 수 있습니다.

 

클러스터 배포 및 구성 작업은 몇 분에서 완료되고 시작 화면이 표시됩니다. 이 화면에는 전체 도움말 콘텐츠 또는 HDInsight를 사용하여 처음으로 Hadoop 작업을 실행하기 위한 샘플 코드에 대한 링크를 제공합니다.

만든 HDInsight 클러스터 페이지에서 [DASHBOARD] 탭을 선택하여 사용 (코어 수), 작업 기록 및 연관 된 저장소 계정과 같은 클러스터의 현재 상태에 대한 기본 정보가 표시됩니다 (아래 그림 참조).

 

처음으로 MapReduce 작업 전송

첫 번째 작업을 전송하기 전에 HDInsight의 PowerShell 명령을 사용하는 개발 환경을 준비해야 합니다. PowerShell 명령을 사용하려면 Windows Azure Powershell 및 HDInsight PowerShell의 2 개 주요 구성 요소의 설치 및 구성을 완료해야 합니다. 시작 화면에서 1 단계에 있는 링크에 따라 환경을 설정합니다.

시작 페이지는 Hive 또는 MapReduce 작업을 보내는 예제 명령을 표시하는 화면이 있습니다. 이 문서에서는 처음에 MapReduce 작업을 전송합니다.

이 명령을 사용하여 샘플을 실행하고 작업 정의를 만들 수 있습니다. 작업 정의에 사용 된 맵퍼 및 reducers, 입력 데이터와 출력의 저장 위치와 같은 작업에 필요한 모든 정보가 포함 됩니다. 이 예제에서는 MapReduce 샘플 프로그램 및 클러스터에 포함된 샘플 파일을 사용합니다. 또한 결과를 저장하기 위해 샘플 디렉터리에 디렉터리를 만듭니다.

$jarFile = "/example/jars/hadoop-examples.jar"

$className = "wordcount"

$statusDirectory = "/samples/wordcount/status"

$outputDirectory = "/samples/wordcount/output"

$inputDirectory = "/example/data/gutenberg"

$wordCount = New-AzureHDInsightMapReduceJobDefinition -JarFile $jarFile -ClassName

$className -Arguments $inputDirectory, $outputDirectory -StatusFolder $statusDirectory

위의 명령을 실행하여 구독 정보를 검색하여 MapReduce 프로그램 실행을 시작합니다. 보통, MapReduce 작업을 수행하는 데 시간이 오래 걸릴 수 있으므로 이 예제에서는 작업의 실행을 시작할 때 동기화 명령을 사용하는 방법을 보여줍니다.

$subscriptionId = (Get-AzureSubscription -Current). SubscriptionId

$wordCountJob = $wordCount | Start-AzureHDInsightJob -Cluster HadoopIsAwesome -

Subscription $subscriptionId | Wait-AzureHDInsightJob -Subscription $subscriptionId

마지막으로 다음 명령을 실행하여 결과를 가져오고, PowerShell 명령줄에 표시됩니다.

Get-AzureHDInsightJobOutput -Subscription (Get-AzureSubscription -Current). SubscriptionId -

Cluster bc-newhdstorage -JobId $wordCountJob.JobId –StandardError

MapReduce 작업의 결과는 작업 자체를 실행하는 정보는 다음과 같이 표시됩니다.

 

작업의 출력을 사용하여 저장소 계정 내의 "/samples/wordcount/output" 디렉터리에 저장됩니다. Windows Azure 관리 포털에서 스토리지 뷰어를 연 다음이 파일을 다운로드하여 출력 파일을 표시합니다.

 

신규 Hive 작업 전송

시작 화면에는 클러스터에 연결하여 Hive 작업을 전송 하는 예제 명령도 표시됩니다. 작업 유형 섹션에서 [Hive] 단추를 클릭하면 샘플이 표시됩니다.

 

PowerShell에서 실행할 첫 번째 명령으로 다음 예제를 실행하여 클러스터와의 연결을 설정합니다.

Use-AzureHDInsightCluster HadoopIsAwesome (Get-AzureSubscription -Current). SubscriptionID

그런 다음 명령을 실행하고 HiveQL 문을 클러스터로 보냅니다. 이 문은 클러스터를 만들 때 기본적으로 설치되는 샘플 Hive 테이블을 사용합니다.

Invoke-Hive "select country, state, count(*) as records from hivesampletable group by country, state order by records desc limit 5"

쿼리는 매우 간단한 select-groupby입니다. 완료되면 결과가 PowerShell 명령줄에 표시됩니다.

 

자세한 정보

이 기사에서는 HDInsight 클러스터 만들기 및 실행, 데이터 분석을 얼마나 쉽게 실행 될 수 있는지를 설명 했습니다. HDInsight는 또한 소유하는 데이터 집합을 업로드하고 고급 작업 실행, 결과 분석 등 아주 많은 작업을 수행할 수 있습니다.

HDInsight 사용에 대한 자세한 내용은HDInsight 설명서 페이지 (영어) 또는 아래 링크 된 기사를 참조하십시오.

요금에 대한 자세한 내용은 HDInsight의 비용에 대한 페이지 를 참조하십시오.

 


Comments (0)

Skip to main content