Giriş Yap / Kayıt Ol

Hadoop, kümelenmiş sistemlerde çalışan büyük veri uygulamaları için veri işleme ve depolamayı yöneten açık kaynaklı dağıtımlı bir işlem çerçevesidir. Öngörülü analiz, veri madenciliği ve makine öğrenimi uygulamaları da dahil olmak üzere öncelikli olarak gelişmiş analitik girişimlerini desteklemek için kullanılan büyük veri teknolojilerinin büyüyen bir ekosisteminin merkezinde yer almaktadır. Hadoop, yapılandırılmış ve yapılandırılmamış verilerin çeşitli biçimlerini ele alabilir; bu da, kullanıcıların veri toplamak, işlemek ve analiz etmek için ilişkisel veritabanlarından ve veri ambarlarından daha fazla esneklik sağlar.

Hadoop

Resmi olarak Apache Hadoop olarak bilinen teknoloji, Apache Software Foundation (ASF) içindeki açık kaynaklı bir projenin parçası olarak geliştirilmiştir. Hadoop'un ticari dağıtımları şu anda büyük veri platformlarının dört ana tedarikçisi tarafından sunulmaktadır: Amazon Web Services (AWS), Cloudera, Hortonworks ve MapR Technologies. Ayrıca, Google, Microsoft ve diğer satıcılar, Hadoop ve ilgili teknolojilerin üzerine inşa edilen bulut tabanlı yönetilen hizmetler sunmaktadır

Hadoop Bileşenleri Nedir?

Hadoop'un ilk iterasyonundaki çekirdek bileşenler MapReduce, Hadoop Dağıtılmış Dosya Sistemi (HDFS) ve Hadoop Common, bir dizi ortak program ve kütüphane idi. Adından da anlaşılacağı gibi MapReduce, verileri işleyen küme düğümlerinde çalışan ve ardından görevlerin tutarlı bir sonuç kümesine ne ürettiğini birleştirmek için işlem işlerini birden çok göreve bölmek için haritayı kullanır ve işlevleri azaltır. MapReduce başlangıçta hem Hadoop'un işleme motoru hem de HDFS'yi doğrudan ona bağlayan ve kullanıcıları MapReduce toplu işlem uygulamalarını kısıtlayan küme kaynak yöneticisi olarak işlev gördü.

Bu, 2.2.0 sürümünün piyasaya sürüldüğü Ekim 2013'te genel olarak kullanıma sunulan Hadoop 2.0'da değişti. MapReduce'dan bu fonksiyonları üstlenen yeni bir küme kaynak yönetimi ve iş planlama teknolojisi olan Apache Hadoop YARN'ı tanıttı. YARN - Henüz Başka Bir Kaynak Müzakerecisi için kısaca ama kısaca tek başına kısaltmasıyla anılır - MapReduce'a sıkı bir bağımlılık getirdi ve Hadoop'u diğer iş makinelerine ve toplu işlerin yanı sıra çeşitli uygulamalara açtı.

Hadoop 2.0 serileri ayrıca HDFS için yüksek kullanılabilirlik (HA) ve federasyon özelliklerini, Microsoft Windows sunucularında Hadoop kümelerini çalıştırmayı ve büyük veri yönetimi ve analitiği için dağıtılmış işleme çerçevesinin çok yönlülüğünü genişletmek için tasarlanan diğer yetenekleri ekledi.

Hadoop 3.0.0, Hadoop'un bir sonraki büyük versiyonu oldu. Aralık 2017'de Apache tarafından piyasaya sürüldü, Hadoop'un temel bileşenlerini genişletmedi. Ancak, YARN'in bir önceki 10.000 düğüm sınırından başlayarak onbinlerce nodu veya daha fazlasını tek bir kümede desteklemesini sağlamak için tasarlanmış bir İDSK Federasyonu özelliği ekledi. Yeni sürümde, GPU'lar ve silme kodlaması için destek de yer alıyordu; bu da önemli ölçüde daha az depolama alanı gerektiren veri çoğaltmaya bir alternatif.

Hadoop Uygulamaları ve Kullanım Alanları

adoop, öncelikle analitik kullanımlarına yöneliktir ve farklı veri türlerini işleme ve saklama yeteneği, büyük veri analizi uygulamalarına özellikle uygun olmasını sağlar. Büyük veri ortamları genellikle, sadece büyük miktarlarda veriyi değil, aynı zamanda yapılandırılmış işlem verilerinden, internet tıklama akışı kayıtları, web sunucusu ve mobil uygulama günlükleri, sosyal medya gönderileri, müşteri e-postaları ve algılayıcılar gibi yarı yapılandırılmış ve yapılandırılmamış bilgi formlarına kadar çeşitli türleri de içerir. şeylerin internetten veri (IoT).

Hadoop tabanlı büyük veri sistemleri için yaygın bir kullanım durumu müşteri analizidir. Örnekler arasında müşteri kaybını tahmin etme, web kullanıcılarına çevrimiçi reklamları daha iyi hedeflemek için tıklama verilerini analiz etme ve bir şirketin sosyal ağlardaki yorumlarına dayanarak müşteri duyarlılığını izleme girişimleri sayılabilir. Sigortacılar, politika fiyatlandırmasını analiz etmek ve güvenli sürücü indirim programlarını yönetmek gibi uygulamalar için Hadoop'u kullanır. Sağlık kuruluşları, Hadoop'un yardımı ile tedavileri ve hasta sonuçlarını iyileştirmenin yollarını ararlar.

YARN, Hadoop kümelerinin Apache Spark ve Apache Flink gibi işleme motorları ile birlikte çalışan akış işleme ve gerçek zamanlı analiz uygulamalarını içerecek şekilde işleyebileceği uygulamaları büyük ölçüde genişletti. Örneğin, bazı üreticiler, ekipman arızalarını meydana gelmeden önce tespit etmeye çalışmak için tahmini bakım uygulamalarında Hadoop'a akan gerçek zamanlı verileri kullanıyor. Sahtekarlık tespiti, web sitesi kişiselleştirme ve müşteri deneyimi puanlama diğer gerçek zamanlı kullanım durumlarıdır.

Hadoop bu kadar geniş bir veriyi işleyebildiği ve depolayabildiği için, kuruluşların bilgi akışları için veri havuzlarını genişletilmiş rezervuarlar olarak kurmasını sağlar. Bir Hadoop veri gölünde, ham veriler genellikle depolanır; böylelikle veri bilimcileri ve diğer analistler ihtiyaç olduğunda tüm veri kümelerine erişebilirler; Daha sonra veriler, diğer uygulamaları desteklemek için gerektiğinde analitik veya BT ekipleri tarafından filtrelenir ve hazırlanır.

Veri gölleri genellikle, temizlenmiş işlem verisi kümelerine sahip geleneksel veri ambarlarından farklı amaçlar sunmaktadır. Ancak, bazı durumlarda şirketler Hadoop veri göllerini modern günlük veri ambarları olarak görüyorlar. Her iki durumda da, büyük veri analitiğinin iş karar verme sürecindeki artan rolü, etkili veri yönetişimi ve veri güvenliği süreçlerini veri göleti dağıtımlarında bir öncelik haline getirmiştir.

Hadoop Pazarı'nın Evrimi

AWS, Cloudera, Hortonworks ve MapR'ye ek olarak, diğer birçok IT sağlayıcısı (en önemlisi, IBM, Intel ve Pivotal (bir Dell Technologies yan kuruluşu) - Hadoop dağıtım pazarına girdi. Bununla birlikte, bu üç şirket daha sonra Hadoop kullanıcılarıyla çok fazla ilerleme kaydedemedikten sonra geri kalan satıcılardan biriyle düştü ve hizalandı. Intel dağıtımını bıraktı ve 2014 yılında Cloudera'ya yatırım yaparken, Pivotal ve IBM sırasıyla 2016 ve 2017 yıllarındaki Hortonworks versiyonunu tekrar satmayı kabul etti.

Kalan satıcılar bile, Spark ve diğer birçok teknolojiyi de içerecek şekilde büyük veri platformlarını genişleterek Hadoop'un kendi bahislerini riske attılar. Hem toplu iş hem de gerçek zamanlı iş yüklerini çalıştıran Spark, birçok toplu iş uygulamasında MapReduce'u devre dışı bıraktı ve AWFS bulutundaki Amazon Basit Depolama Hizmeti'nden (S3) veriye erişmek için HDFS'yi atlatabilir - ayrıca Cloudera ve Hortonworks tarafından desteklenen bir yetenek AWS'nin kendisi gibi. 2017 yılında, hem Cloudera hem de Hortonworks, Hadoop kelimesini büyük veri kullanıcıları için rakip konferanslarının isimlerinden düşürdü.

Hadoop

Bununla birlikte, genel olarak büyük veri ekosistemi - ya da Hadoop ekosistemi, hâlâ bilindiği gibi - kullanıcıların ve satıcıların dikkatini çekmeye devam ediyor. Ve giderek artan şekilde, odak bulut dağıtımları üzerindedir. Elastic MapReduce şu anda Amazon EMR ile rekabet edebilmek için, Cloudera, Hortonworks ve MapR'nin, artık ihtiyaç duyulmadığında kapatılabilen geçici kümeler için destek de dahil olmak üzere buluttaki platformlarını yerleştirmeyi ve yönetmeyi kolaylaştıracak tüm adımları attılar. .

Hadoop'u bulutta kullanmak isteyen kuruluşlar, Hortonworks platformuna dayanan Microsoft'un Azure HDInsight'ı ve hem Hadoop hem de Spark'un açık kaynaklı sürümleri etrafında oluşturulan Google Cloud Dataproc gibi çeşitli yönetilen hizmetlere de dönüşebilir.

Aklına bir soru mu takıldı? O zaman uzmana sor:

WM Aracı Maskotu Boa WM Aracı © 2010 - 2018
Bir Boğa Bilişim markası.
Cesur.NETWM Aracı Cesur.NET İnternet Teknolojileri'nde güvenle barınmaktadır.