Was ist Hadoop?

Hadoop ist ein quelloffenes, skalierbares Framework. Es ermöglicht, große Datenmengen auf sogenannten Computer-Clustern, zu speichern und zu verarbeiten. Unternehmen wie Facebook, Adobe, Amazon, etc. verwenden es, um rechenintensive Aufgaben in verschiedenen Bereichen zu erledigen. Zum Beispiel in der Netzwerkanalyse, Behavioral Targeting oder diversen Big-Data-Problemen. Gerade die Probleme, die Big Data mit sich bringt, soll es lösen können. Dabei basiert es auf Java. Es wird von der Apache Software Foundation als Top-Level-Projekt gepflegt und weiterentwickelt. Das Java-basierte Framework läuft auf Standardhardware und ist nicht auf kostenintensive SAN-Lösungen (Storage Attached Networks) angewiesen. Denn je größer die Datenmenge ist, desto schwieriger ist die Verarbeitung. Damit unterscheidet sich der Ansatz zu denen, die versuchen, Big Data auf einem Hochleistungsrechner zu verarbeiten. Es zerlegt und teilt Daten. Dabei ist es 2004 und 2005 von Doug Cutting und Mike Cafarella für die Suchmaschine Nutch entstanden.

Hintergrund des Projekts war, dass Google ein Paper veröffentlicht hat, in dem man den MapReduce-Algorithmus vorgestellt hat. Dieser ermöglicht die Verarbeitung großer Datenmengen, indem die Computerkapazität in Cluster von Computern oder Servern aufteilt. Auch hier spielt das Dateisystem von Google eine zentrale Rolle. Denn die parallele Verarbeitung von Daten im Hinblick auf die Speicherung erfordert eine spezielle Dateiverwaltung. Cutting hat die Bedeutung dieser Entwicklungen erkannt und nutzt sie, als Inspiration für die Technologie. Michael C. Reiserer unterstützt ihr Unternehmen bei der Digitalisierung, um ihr Unternehmen zum Wachstum zu verhelfen. Vom Standort München aus unterstützt er als Investor, Speaker und Interim Manager. Für weitere Informationen nehmen Sie Kontakt auf zu Michael C. Reiserer.

Die Funktionsweise von Hadoop

Der Aufbau besteht aus vier wichtig Modulen. Diese greifen während der Verarbeitung und Speicherung der Daten ineinander. Zudem bauen sie auch aufeinander auf. Das Hadoop Distributed File System (kurz HDFS) ist ein Modul, das die Voraussetzung für den MapReduce-Algorithmus erstellt. Denn aufgeteilte Rechnersysteme benötigen eine spezielle Dateiverwaltung, um alle Ressourcen bestmöglich zu verwenden. Das Modul MapReduce ist ein verteiltes Rechnersystem von Google und ist eines der zentralen Merkmale. Es besteht aus einem JobTacker und einem TaskTracker. Dabei delegiert es Jobs an verfügbare Ressourcen, nimmt Jobs entgegen und leitet sie an sogenannte Knoten weiter. Der TaskTracker befindet sich meistens nah an dem Ort, an dem sich die zu verarbeitenden Daten befinden. Dadurch reduziert sich die Netzwerklast auf das Knotensystem. Jeder Knoten ist eine Computereinheit. Dies sind herkömmliche Computer, die auf Linux basieren. Das Besondere an MapReduce ist die Organisation von Job-Trackern und Task-Trackern.

Letztere kann man auch als Slaves bezeichnen. Zudem bilden JobTracker und TaskTracker eine Master-Einheit. Sie delegiert Aufgaben und Slaves arbeiten für sie. Dann gibt es noch YARN. Mithilfe von YARN (Yet another resource negotiator) verteilt sich die Arbeit über zwei Job-Tracker in Cluster. Der ResourceManager (RM) übernimmt die globale Koordination und der ApplicationMaster (AM) verwaltet Aufgaben zu einzelnen Anwendungen. Hadoop Common ist ein Software-Framework und ergänzt die anderen Kernmodule. Dazu gehören viele Bibliotheken und Anwendungen, von denen einige sehr unterschiedlich sind. Sowohl HDFS als auch MapReduce oder YARN hängen von diesen Standardbibliotheken ab. Abschließend gibt es Hadoop-Projekte. Denn je nach Anforderungsprofil können unterschiedliche Projekte zum Einsatz kommen. Hive bietet Erweiterungen zur Verwendung als Data Warehouse. Auch Ambari, Avro, Cassandra, Cukwa, Hbase, Mahout, Pics, Spark, Tez und Zookeeper sind Erweiterungen.

Michael C. Reiserer berät und unterstützt seit Jahren erfolgreich Start-ups in München und Umgebung. Von Standort München aus agiert er dabei vor allem der deutschsprachige Raum.

Bedeutung für die Suchmaschinenoptimierung

Hadoop ist eine moderne Big-Data-Umgebung, die sich für zahlreiche Anwendungen eignet und modular ergänzbar ist. Ob Data Mining, Information Retrieval, Business Intelligence oder Predictive Modeling, dabei kann es zuverlässige Ergebnisse liefern. Außerdem lassen sich auch Rechenprozesse automatisieren, insbesondere beim Umgang mit großen Datenmengen. Der Ursprungsgedanke war eine Suchmaschine. Nutch war ein Webcrawler. Hadoop hat man später in ein separates Projekt verschoben, umso als Infrastruktur von Nutch zu dienen. Darin eingeschlossen Indizierung und Datenbank. Denn man hat die weitreichenden Vorteile des Frameworks während des Projekts verstanden. Dazu gehören heute auch Webanalysen, Cross-Selling in Online-Shops oder Werbung auf Basis des Nutzerverhaltens in Affiliate-Netzwerken. Aufgrund der Natur ist das Framework jedoch für kleine Projekte nur begrenzt sinnvoll. Durch sein verteiltes Rechnersystem ist es flexibel ist. Trotzdem sollte eine gewisse Menge an Daten zur Verfügung stehen, um den Entwicklungsaufwand auszugleichen.

Da es eine Umgebung mit Bibliotheken, Programmen und Anwendungen ist, muss man es auf die Anforderungen zuschneiden. Sie möchten mehr zum Thema erfahren? Dann kontaktieren Sie Michael C. Reiserer aus München.