Hadoop Nedir?Büyük veri hadoop la nasıl işlenir.? ~ Bilgisayar Bilimleri

Herkese merhabalar bu yazımda size hadoopla ilgili bilgiler vereceğim.Bir önceki yazımda big data kavramından bahsetmiştim.Şimdi ise bu büyük veriyi nasıl işleyeceğimizi,bu alanda var olan teknolojilerden bahsedeceğiz.

Hadoop Nedir?

Hadoop, binlerce emtia donanım düğümüne sahip sistemlerde uygulamaları çalıştırmayı ve binlerce terabayt veriyi işleyebilmeyi mümkün kılıyor . Onun dağıtık dosya sistemi hızla kolaylaştıran veri aktarım oranları düğümler arasında ve sistem bir düğüm hatası durumunda çalışmaya devam etmesini sağlar. Bu yaklaşım, önemli sayıda düğüm çalışmaz hale gelse bile, felaketli sistem hatası ve beklenmedik veri kaybı riskini düşürür. Sonuç olarak Hadoop , bilimsel analitik, iş ve satış planlaması gibi büyük veri işleme görevleri için hızlı bir temel oluşturdu ve internette sensörlerin bulunduğu çok sayıda sensör verisinin işlenmesi .

Hadoop, bilgisayar bilim adamları Doug Cutting ve Mike Cafarella tarafından 2006 yılında Nutch arama motoru dağıtımını desteklemek üzere kuruldu . Google'ın MapReduce, bir uygulamanın sayısız küçük parçaya ayrıldığı bir yazılım çerçevesinden esinlenilmiştir . Parçacıklar veya bloklar olarak da adlandırılan bu parçalardan herhangi biri, kümedekiherhangi bir düğümde çalıştırılabilir . Hadoop 1.0, açık kaynak topluluğunda yıllarca geliştirildikten sonra Kasım 2012'de Apache Software Foundation tarafından desteklenen Apache projesinin bir parçası olarak kamuya açık hale geldi.

İlk çıktığından beri Hadoop sürekli geliştirildi ve güncellendi. Hadoop'un ikinci tekrarlaması ( Hadoop 2 ), kaynak yönetimini ve zamanlamayı geliştirdi. Yüksek kullanılabilirlikli bir dosya sistemi seçeneği ve Microsoft Windows ve diğer bileşenlerin, veri işleme ve analiz için çerçevenin çok yönlülüğünü genişleten desteği bulunur .

Kuruluşlar, Hadoop bileşenlerini ve destek yazılım paketlerini yerel veri merkezlerine yerleştirebilirler. Bununla birlikte, büyük veri projelerinin çoğunun önemli bilgisayar kaynaklarının kısa vadede kullanılmasına bağlı olduğu bilinmektedir. Bu tür kullanım, Amazon Web Hizmetleri (AWS), Google Cloud Platform ve Microsoft Azure gibi son derece ölçeklenebilir genel bulut hizmetlerine en uygun olanıdır. Genel bulut sağlayıcıları, genellikle AWS Elastic Compute Cloud ve Basit Depolama Hizmeti örnekleri gibi temel hizmetler aracılığıyla Hadoop bileşenlerini desteklemektedir . Bununla birlikte, özellikle AWS Elastic MapReduce , Google Cloud Dataproc ve Microsoft Azure HDInsight gibi Hadoop tipi görevler için özel olarak hazırlanmış hizmetler de vardır .

Hadoop modülleri ve projeleri

Bir yazılım çerçevesi olarak, Hadoop sayısız fonksiyonel modüllerden oluşur. En azından, Hadoop , çerçevenin önemli kütüphanelerini sağlamak için bir çekirdek olarak Hadoop Common'ı kullanır . Diğer bileşenler arasında , düğümler arasında yüksek bant genişliği elde etmek için binlerce emtia sunucusunda veri depolama kapasitesine sahip Hadoop Dağıtık Dosya Sistemi (HDFS) bulunur ; Kullanıcı uygulamaları için kaynak yönetimi ve zamanlama sağlayan Hadoop Yet Another Resource Negotiator (YARN) ; ve büyük dağıtılmış veri işlemesinin üstesinden gelmek için kullanılan programlama modelini sağlayan Hadoop MapReduce - verileri haritalama ve sonuca indirgeme.

Hadoop, Hadoop'un temel yeteneklerini tamamlayıcı ve yaygınlaştıracak bir dizi ilgili projeyi de desteklemektedir. Tamamlayıcı yazılım paketleri şunları içerir:

Apache Flume . Büyük miktarda veri akışını HDFS'ye toplamak, toplamak ve taşımak için kullanılan bir araç.
Apache HBase . Açık kaynak kodlu, ilişkisiz, dağıtılmış bir veritabanı;
Apache Hive . Veri özetleme, sorgulama ve analiz sağlayan bir veri ambarı;
Cloudera Impala . Başlangıçta yazılım şirketi Cloudera tarafından yaratılan, ancak şimdi açık kaynaklı yazılım olarak piyasaya sürülen, Hadoop için geniş bir paralel işlem veritabanı;
Apache Oozie . Hadoop işlerini yönetmek için bir sunucu tabanlı iş akışı zamanlama sistemi;
Apache Phoenix . Hadoop için açık kaynak kodlu, büyük paralel işleme, ilişkisel veritabanı motoru olan Apache HBase;
Apache Pig . Hadoop'ta çalışan programlar oluşturmak için üst düzey bir platform;
Apache Sqoop . Hadoop ve yapısal veri mağazaları arasında, ilişkisel veritabanlar gibi toplu verilerin aktarılması için kullanılan bir araç;
Apache Spark . Büyük veri işleme için SQL, makine öğrenimi ve grafik işleme akışını ve desteklenmesini sağlayan hızlı bir motor;
Apache Storm . Açık kaynaklı bir veri işleme sistemi; ve
Apache ZooKeeper . Büyük dağıtılmış sistemler için bir açık kaynak yapılandırma, senkronizasyon ve adlandırma kayıt hizmeti.