Grundlagen des Cloud Computing

Cloud Computing tritt in verschiedenen Facetten auf, wodurch der Begriff für unterschiedlichste Technologien verwendet wird. Siehe auch Basistechnologien des Cloud Computing. Er ist bis heute nicht eindeutig definiert. Viele Bücher ziehen jedoch die Erläuterung der auf IT-Entwicklung spezialisierten Marktforschungsunternehmen Gartner und Forrester Research heran. Gartner beschreibt Cloud Computing als „a style of computing where massively scalable IT-related capabilities are provided „as a service“ using Internet technologies to multiple external customers.“
 

In der Arbeit wird der Begriff Cloud Computing für Dienste verwendet, die die folgenden Kriterien erfüllen:

  • Zentralisierter Dienst der es ermöglicht, Anwendungen zu betreiben und der über das Internet für jeden zugänglich ist
  • Die Kosten für den Dienst sind Nutzungsabhängig nach dem „pay as you use“ Prinzip
  • Die technische Infrastruktur ist von der physikalischen Infrastruktur abstrahiert
  • Einfache Skalierung der benötigten Ressourcen

Anwendungsfälle für Cloud Computing Web-Anwendungen

Cloud Web-Anwendungen können unterschiedlichste Anwendungsfälle abdecken. Die wichtigsten wurden durch das Projekt BEinGRID (Business Experiments in GRID) anhand konkreter Anwendungsfälle identifiziert. BEinGRID war das größte Projekt im 6. EU-Rahmenprogramm für Forschung, Technologische Entwicklung und Demonstration (FP6). Die nachfolgende Tabelle stellt die wichtigsten Anwendungsfälle dar:

 

Charakteristik der Anwendung

Beispiel Anwendung

Massive Skalierbarkeit

Soziale Netzwerke und Marketing Aktionen die über Soziale Netzwerke durchgeführt werden

Hohe Zuverlässigkeit

eCommerce Anwendungen

Variable Lasten

Online Shops wie Amazon (z.B. Lastspitzen zur Weihnachtszeit)

Unvorhersehbare & ggf. kurze Laufzeit

Webseiten für Events

Massives Parallel Computing

Große Datenberechnungen. Z.B. Genom Entschlüsselung

Bedarf an großen Speichermengen

Online Video Portale

Management der technische Infrastruktur einsparen

SaaS Anwendungen wie Google Docs

Anwendungen die nicht gut für On-Premise Hosting geeignet sind

Anwendungen die laufend aktualisiert werden.

Tab. 1 Anwendungsfälle für Cloud Computing

 

Ebenen des Cloud Computing

Cloud Computing Anbieter bieten Dienste auf unterschiedlichen Ebenen an, wobei die Ebenen theoretisch betrachtet aufeinander aufbauen. Die unterste Ebene bildet IaaS (Infrastructure as a Service) und stellt den darüber liegenden Ebenen die technische Infrastruktur zur Verfügung. Darauf baut die PaaS (Plattform as a Service)-Ebene auf, in der der Cloud Computing-Anbieter eine komplett verwaltete Systemumgebung mit diversen Services zur Verfügung stellt. In der höchsten Abstraktionsstufe SaaS (Software as a Service) werden komplette Web-Anwendungen zur Verfügung gestellt, die der Kunde nach dem „Pay-per-Use“ Prinzip nutzen kann.

Im nachfolgenden werden die einzelnen Ebenen genauer betrachtet:

 

CloudComputing_EbenenAbb. 2 Ebenen des Cloud Computing

Infrastructure as a Service (IaaS)

IaaS stellt die unterste Schicht im Cloud Computing dar. Der Cloud Computing Anbieter stellt eine virtuelle Infrastruktur zur Verfügung. Dazu zählen insbesondere virtuelle Server, Speichersysteme, Datenbanken und Netzwerke. Auf den virtuellen Servern kann der Kunde eigene Betriebssysteme und Software installieren. Die Flexibilität gegenüber PaaS ist deutlich höher, wird aber damit erkauft, dass der IaaS Nutzer die softwareseitige Administration der Server selbst übernehmen muss.

 

Die Kosten für IaaS-Lösungen sind nicht fix wie bei dem traditionellen Server Hosting, sondern abhängig von den verwendeten Ressourcen (u.a. CPU (Central Processing Unit) Zeiten und Speicherverbrauch).

Plattform as a Service (PaaS)

Die vorliegende Arbeit konzentriert sich überwiegend auf die PaaS-Ebene. Auf dieser Ebene stellen die Cloud-Anbieter einzelne Entwicklungswerkzeuge und Dienste zur Verfügung, die Anwendungsentwickler zu Programmierung neuer IT-Lösungen oder zur Anpassung bestehender IT-Lösungen an Cloud-Umgebungen nutzen können. Die entwickelten Anwendungen können als SaaS-Lösung über den Cloud-Anbieter bereitgestellt werden, der sich um die Administration der technischen Infrastruktur kümmert.

PaaS-Anbieter stellen Frameworks mit speziellen APIs für den Zugriff auf ihre Dienste wie Datenspeicherung, Datenbanken und Messaging Services zur Verfügung. Diese sind zumeist nicht kompatibel mit den APIs der konkurrierenden Cloud-Anbieter und führen zum „Vendor Lock-In“ genannten Problem, welches einen schnellen Wechsel zu einem anderen Cloud-Anbieter verhindert. Programme die für einen Anbieter entwickelt worden, müssen beim Wechsel auf eine andere Cloud-Plattform aufwändig angepasst werden. Wie groß der Aufwand ist, hängt von der speziellen Implementierung des Programmes ab. Daher sollte bereits beim Design der Anwendung auf eine möglichst große Interoperabilität geachtet werden. Diese kann beispielsweise durch Nutzung einer Zwischenschicht wie JPA (Java Persistence API) beim Zugriff auf die Datenbank des Cloud-Anbieters erhöht werden. Das IEEE (Institute of Electrical and Electronics Engineers) hat zu diesem Thema die Arbeitsgruppe P2301 gegründet, die die Interoperabilität der PaaS Cloud-Umgebungen erhöhen soll.

Software as a Service (SaaS)

SaaS arbeitet auf der obersten Schicht des Cloud Computing. Unternehmen, die SaaS anbieten, stellen ihren Kunden komplette Programme zur Verfügung, die über einen Browser abgerufen werden können. Die Software läuft auf der Infrastruktur des Cloud-Anbieters. Der Kunde spart somit Investitionen in Anwendungsserver und Softwarelizenzen. Er mietet die Software gegen eine monatliche Gebühr so lange er sie benötigt.

Gründe gegen die Nutzung einer SaaS Lösungen können die Datenhaltung beim SaaS-Anbieter und die erschwerte oder gar unmögliche Integration der SaaS-Anwendung in die bestehende Anwendungslandschaft des Kunden sein.

Cloud-Typen

Eine Cloud kann neben den verschiedenen Service-Ebenen auch durch den physischen Standort der Server Hardware und den Nutzerkreis, welcher auf die Cloud zugreifen darf, unterschieden werden.

CloudComputing_TypenAbb. 3 Cloud-Typen

Private Cloud

Bei der Private Cloud befindet sich die gesamte Hardware innerhalb des Unternehmens. Die IT-Abteilung des Unternehmens ist für die Administration des Cloud-Systems zuständig und kann die Sicherheit der unternehmenskritischen Daten gewährleisten. Es findet keine Ressourcenteilung mit anderen Cloud-Nutzern statt, sodass eine hohe Performance garantiert ist.

Eine Spezialform der Private Cloud ist die Community Cloud, bei der sich eine eingeschränkte Gruppe von Unternehmen eine Cloud teilen.

 

Public Cloud

Eine Public Cloud ist generell jedem zugänglich und stellt seine Dienste in einem öffentlichem Netzwerk wie dem Internet zur Verfügung. Es findet eine Ressourcenteilung statt, bei der mehrere Kunden sich die gleiche physikalische Hardware teilen. Die Trennung der Kunden wird per Software über Zugriffsbeschränkungen geregelt. Durch Load Balancing und Monitoring sorgen die Public Cloud-Anbieter dafür, dass immer genügend Leistungsreserven zur Verfügung stehen. Durch den großen Nutzerkreis können Skaleneffekte besonders gut genutzt werden, wodurch Public Cloud-Dienste relativ kostengünstig sind. Die Bezahlung der Dienste erfolgt meist monatlich auf Basis der in Anspruch genommen Ressourcen.

Hybrid Cloud

Die Hybrid Cloud stellt eine Mischform der beiden Ansätze dar und versucht die Vorteile der beiden Techniken zu vereinen und die Nachteile zu substituieren.
Aufgrund der verschiedenen Maßstäbe der Cloud-Typen in Bezug auf Sicherheit und zugesicherter Privatsphäre eigenen sich unternehmenskritische Anwendungen eher für den Betrieb in einer Private Cloud, wo hingegen weniger kritische Anwendungen auf IT-Ressourcen in einer Public Cloud ausgelagert werden können. Die Systeme oder Teile von einzelnen Systemen können somit als SOA umgesetzt werden und auf verschiedenen Cloud-Typen laufen. Die Kommunikation der Dienste läuft über gesicherte und standardisierte Interfaces. Dieser Zusammenschluss aus Private Cloud und Public Cloud wird als Hybrid Cloud bezeichnet.

Basistechnologien des Cloud Computing und von Cloud-Anwendungen

Im nachfolgenden werden einige der Basistechnologien des Cloud Computing vorgestellt, um eine Wissensbasis für die nachfolgenden Kapitel zu schaffen.

Open Source

Unter Open Source fällt Software, deren Quellcode unter einer von der OSI (Open Source Initiative) anerkannten Lizenz steht und somit öffentlich verfügbar ist. Die Software kann von jedermann kostenfrei genutzt und weiterentwickelt werden.

Für das Cloud Computing von besonderer Bedeutung sind insbesondere einige größere Open Source Projekte aus den Bereichen Virtualisierung, NoSQL-Datenbanken und der verteilten Speicherung von Binärdaten, die teilweise von den Cloud Anbietern verwendet werden und an entsprechender Stelle in der Arbeit erwähnt und ggf. näher erklärt werden.

Neben der Nutzung vereinzelter Open Source Software durch die Cloud-Anbieter existieren komplette Open Source Cloud Implementierungen. Dazu zählen die Projekte Eucalyptus (Elastic Utility Computing For Linking Your Programs To Usefull Systems), OpenNebula, Open QRM und OpenStack. Das Projekt Eucalyptus ist besonders interessant, da es schnittstellenkompatibel mit den Amazon-Diensten EC2, S3 und EBS ist.

Virtualisierung

Virtualisierung ist eine der grundlegenden Technologien, die Cloud Anbieter zur Realisierung ihrer Dienste verwenden. Eine eindeutige Definition ist nicht möglich, da die Anwendungsfälle und eingesetzten Technologien im Bereich der Hard- und Software verschieden sind. Das grundlegende Ziel von Virtualisierung ist jedoch die Schaffung einer logischen Abstraktionsschicht zwischen Hardware-Ressourcen und der darauf laufenden Software, so dass die Software von der Hardware entkoppelt ist.

 

Virtualisierung kann auf verschiedenen Ebenen stattfinden, die anschaulich im nachfolgend dargestellten Modell der Kusnetzky Group beschrieben werden. Im Bereich des Cloud Computing sind die unteren drei Ebenen sowie die Security- und Management-Ebene von Bedeutung:

 

Abb. 4 Ebenen der Virtualisierung

 

Processing virtualization

Die Processing virtualization wird genutzt, um auf einem physikalischen Server zeitgleich mehrere Server laufen zu lassen. Um dies zu erreichen, können zwei Kategorien von Virtualisierungstechnologien eingesetzt werden. Zum einen die „Voll Virtualisierung“, bei der die komplette Hardware eines Computers virtuell nachgebildet wird und zum anderen die „Para Virtualisierung“, bei der der Kernel des Gast OS (Operating System) angepasst werden muss. Der bekannteste Vertreter der Para Virtualisierung ist das Produkt XEN, bei dem die Gast OSs direkt auf der Hardware des Host System laufen. Aus diesem Grund ist XEN extrem schnell weswegen Amazon für seine EC2-Instanzen auf diesen setzt.

Im Nachfolgenden werden die bekanntesten Hypervisor Technologien aufgelistet:

 

Voll Virtualisierung Hypervisor Technologien:

  • VMware    (Closed Source)
  • HyperV     (Closed Source)
  • QEMU    (Quick Emulator, Open Source)
  • KVM        (Kernel-based Virtual Machine, Open Source)
  • Virtual Box     (Open Source)

Para Virtualisierung Hypervisor Technologien:

  • XEN        (Open Source)

     

Network virtualization

Network virtualization ermöglicht durch Hard- und Software-Technologien eine logische Sicht auf das Netzwerk, die sich von dem tatsächlichen physikalischen Aufbau des Netzwerkes unterscheidet und meist zentral über eine Management Software VIM (Virtual Infrastructure Manager) gesteuert werden kann. Dadurch können auf einfache Weise Teilnetze gebildet werden, in denen Computer zu Gruppen zusammengefasst sind, die gegenseitig Daten austauschen dürfen. Eine Technik zur Bildung der Teilnetze ist VLAN (Virtual Local Area Network).

Eine weitere häufig eingesetzte Technologie ist die Bündelung mehrerer Netzwerkverbindungen zu einer logischen Verbindung. Dadurch werden die Datenübertragungsrate und die Zuverlässigkeit erhöht. Eine mögliche Technologie zur Umsetzung bietet das nach IEEE 802.3ad spezifizierte LACP (Link Aggregation Protocol).

Weitere Technologien sind NAT (Network Address Translation), Network Isolation sowie komplett virtuelle Switche in den eingesetzten Hypervisor-Produkten.

 

Storage virtualization

Mit Storage virtualization wird eine logische Schicht zwischen den physischen Systemen zur Datenhaltung wie SAN (Storage Area Networks) und RAID (Redundant Array of Independent Disks) und den darauf zugreifenden Servern gebildet. Anwendungen greifen auf diese Zwischenschicht zu und brauchen damit nicht mehr genau wissen, auf welcher Festplatte, Partition oder Speicher-Subsystem die Daten liegen. Das Management der Datenhaltung wird damit zentralisiert und vereinfacht. Die Kapazität lässt sich je nach Bedarf nahezu beliebig skalieren, weshalb Cloud-Anbieter diese Technologie einsetzen. Mit HDFS (Hadoop Distributes File System) existiert eine Open Source Lösung der Apache Software Foundation, die es erlaubt mehrere Petabyte an Daten über viele Speicherknoten zu verteilen.

 

Aspekte die für die Nutzung von Virtualisierungs €“Techniken bei Cloud-Anbietern sprechen:

  • Bessere Auslastung der Hardware-Ressourcen, da mehrere virtuelle Instanzen auf der gleichen physikalischen Hardware laufen können.
  • Verringerter Energiebedarf der Server aufgrund der besseren Auslastung
  • Geringere Hardware Kosten, da bei guter Disaster Recovery günstigere Consumer Hardware eingesetzt werden kann.
  • Schnelle Disaster Recovery bei der die MTTR (Mean Time To Recovery) deutlich gesenkt ist. Virtuelle Maschinen können häufig ohne Service-Unterbrechung im laufenden Betrieb auf andere Hosts verschoben werden.
  • Das Deployment neuer Server geht aufgrund von fertigen Server Images sehr schnell.
  • Es existiert ein zentrales Management für die virtuellen Server.

NoSQL-Datenbanken

NoSQL steht für Not only SQL und bezeichnet eine neue Art von Datenbanken, die nicht den viel genutzten relationalen Ansatz verfolgen. Es handelt sich bei ihnen um strukturierte Datenspeicher, die keine festgelegten Tabellenschemata verwenden und zumeist ohne Joins auskommen. Sie skalieren sehr gut horizontal, d.h. durch das Hinzufügen weiterer Datenbankserver und können große Datenmengen schnell verarbeiten, weshalb sie gut für das Cloud Computing geeignet sind. Die Abfrage der Daten erfolgt in einer proprietären Sprache, die jedoch häufig an SQL angelehnt ist. Zumeist werden nicht alle ACID (Atomicity, Consistency, Isolation und Durability)-Eigenschaften durch die NoSQL Datenbanken erreicht. Insbesondere wird das Prinzip der Isolation und Konsistenzhaltung nur begrenzt umgesetzt, da häufig auf Transaktionen und Normalisierung verzichtet wird.

Es haben sich vier grundlegende Formen der NoSQL Datenbanken herausgebildet:

 

Key-Value-Datenbank

Die meisten NoSQL-Datenbanken arbeiten als Key-Value Store. Hierbei wird ein Schlüssel verwendet, der auf einen bestimmten Wert verweist. Das Verfahren ist mit den aus der Programmierung bekannten Hash Maps oder assoziativen Arrays vergleichbar, wo über einen Namen auf den Wert zugegriffen werden kann. Jeder der in dieser Arbeit vorgestellten Cloud Computing-Anbieter bietet eine NoSQL basierte Datenbank nach dem Key-Value Prinzip an. Google BigTable, Amazon SimpleDB und Microsoft Azure Table.

 

Spaltenorientierte-Datenbank

Spaltenorientierte Datenbanken speichern die Daten als Schlüssel-Wert-Relation. Sie haben eine sehr hohe Performance, da aufgrund ihres Designs eine Minimierung der Festplatten I/O Aktivität vorliegt. Der bekannteste Vertreter dieser Gattung von NoSQL-Datenbanken ist Cassandra. Cassandra ist aktuell ein Top Level Projekt der Apache Foundation und wird bei den Webdiensten Facebook, Twitter und Digg verwendet.

 

Dokumentenorientierte Datenbank

Diese Form der NoSQL-Datenbanken speichert Textdaten beliebiger Größenordnung ab. Die Daten werden als Ganzes betrachtet und nicht weiter unterteilt. Die Datenbank nimmt eine Indexierung der Daten vor und erlaubt einen Zugriff nicht nur über den Primärschlüssel, sondern auch über die Dokumenteninhalte. Die bekanntesten Open Source Vertreter dieser Datenbank Kategorie sind CouchDB und MongoDB.

 

Graphen-Datenbank

Graphen-Datenbanken werden seltener eingesetzt und decken ganz spezielle Anwendungsfälle ab. Sie speichern die Beziehung zwischen Elementen in einem Graphen. Dabei kann es sich beispielsweise um ein Beziehungsgefüge in einem sozialen Netzwerk handeln. Open Source-Implementierungen sind z.B. Neo4j und FlockDB, die von dem Webdienst Twitter genutzt wird.

 

NoSQL-Datenbanken sind nicht für alle Anwendungsfälle geeignet. Es gilt genau abzuwägen, ob die Vorteile die Einschränkungen gegenüber traditionellen relationalen Datenbanken rechtfertigen.

Serviceorientierte Architekturen (SOA)

Serviceorientierte Architekturen stellen ein Architekturmuster dar, um Softwaresysteme für verteilte Systeme umzusetzen. Der Begriff wurde erstmalig 1996 durch das Marktforschungsunternehmen Gartner benutzt. Es existiert keine eindeutige Definition, jedoch wird häufig die Definition der OASIS (Organization for the Advancement of Structured Information Standards) aus dem Jahr 2006 zitiert:

„SOA ist ein Paradigma für die Strukturierung und Nutzung verteilter Funktionalität, die von unterschiedlichen Besitzern verantwortet wird.“

Das Unternehmen hat ein Referenz Modell zur Umsetzung von Software Architekturen nach dem SOA Konzept entwickelt. Dabei werden Services generell aus einer Geschäftssicht und einer technischen Sicht beschrieben.

 

Die Ziele von SOA sind:

  • Flexibilisierung bestehender Prozesse durch modularen Aufbau und Kapselung einzelner Dienste
  • Dienste können wiederverwendet werden und zeichnen sich durch klar definierte und strukturierte Interfaces aus.
  • Kommunikationsinterfaces nutzen implementations unabhängige Standards wie XML, JSON und SOAP.
  • Schnelle Anpassung der Systeme an geänderte externe Einflüsse

SOA ist für Cloud-Anwendungen interessant, da es eine etablierte Architektur zur Verknüpfung von Cloud-Resourcen zur Verfügung stellt. Es existieren klar definierte

Designrichtlinien und Handlungsempfehlungen zum Aufbau der Dienste.

Webservices REST und SOAP

Bei REST (Representational State Transfer) und SOAP (Simple Object Access Protocol) handelt es sich um essentielle Techniken für die Benutzung und zur Verfügung Stellung von Webservices. Sie ermöglichen den Informationsaustausch zwischen IT-Systemen, wobei zumeist das XML- oder JSON-Format benutzt wird. REST und SOAP stehen somit in direkter Konkurrenz zueinander. Cloud Anbieter bevorzugen in der Regel das REST Protokoll, weshalb dieses im nachfolgenden näher beschrieben wird. REST wurde mit der Dissertation von Roy Fielding in Jahr 2000 bekannt. Es gibt fünf grundlegende Punkte die einen REST Services beschreiben:,,

 

Adressierbarkeit

Jede verteilte Ressource hat eine eindeutige Adresse, den URI (Uniform Ressource Identifier). Zur Identifizierung der Ressource wird zumeist eine Webadresse der folgenden Form verwendet:

http(s)://host:port/pfad/abfrage?parameter#fragment

 

Eindeutige und klar definierte Operationen

REST verwendet einfache Operationen, die auf jeden Dienst angewandt werden können. Dabei wird auf die im HTTP spezifizierten Operationen, GET, PUT, POST, DELETE, HEAD und OPTIONS zurückgegriffen.

 

 

Repräsentationsorientiertheit

Die unter einer Adresse zur Verfügung gestellten Daten können in unterschiedlichen Formen vorliegen. Insbesondere das im nachfolgenden Kapitel vorgestellte XML und JSON Format haben sich durchgesetzt.

 

Zustandslose Kommunikation

REST ist ein zustandsloses Kommunikationsprotokoll, bei dem jede Nachricht alle Informationen enthält um sie zu verstehen. Jede Anfrage des Clients an den Server ist in sich geschlossen. Der Server muss daher keine Zustandsinformationen zwischen zwei Anfragen speichern. Durch die Zustandslosigkeit können Webservices gut skaliert werden.

 

Verwendung von Hypermedia

In REST Services können Standard-Hypermedia Elemente verwendet werden. Dazu zählen insbesondere auch Hyperlinks, die Verknüpfungen zu anderen Elementen aufbauen.

Datenaustausch-Formate XML und JSON

Die Formate XML (Extensible Markup Language) und JSON (JavaScript Object Notation) werden von Cloud-Anbietern und auch den auf Cloud-Technologie aufsetzenden Web-Anwendungen innerhalb ihrer REST und SOAP Services zum Datenaustausch genutzt. Sie verwenden Plain-Text, wodurch die übertragenen Daten von Menschen lesbar sind.

XML wurde durch das W3C (World Wide Web Consortium) spezifiziert und ist verwandt mit HTML (HyperText Markup Language). Tags zur Datendefinition können im Gegensatz zu HTML jedoch frei gewählt werden. Ãœber eine DTD (Document Type Definition) kann festgelegt werden welche Elementtypen eine XML Datei beinhalten darf und welche Werte die Attribute annehmen dürfen.

JSON stellt eine Art serialisierte Form der aus Programmiersprachen bekannten Arrays und Objekten dar. JSON reicht dabei nicht an alle Funktionen von XML heran. U.a. werden keine Schemadaten, Metadaten oder eine klare Unterscheidung zwischen Attributen und Werten durchgeführt. Gerade wegen der Einfachheit und der Möglichkeit die JSON kodierten Daten bei einer AJAX (Asynchronous JavaScript and XML) basierenden Web-GUI (Graphical User Interface) wieder in JavaObjekte zu konvertieren, wird das Format gerne für die Ãœbertragung von Daten zwischen Web-/Anwendungsservern und einer Web-GUI genutzt.

Raspberry Pi – Filesharing Plattform / Cloud mit Pydio

pydio_logoMit der OpenSource Software Pydio lässt sich der Raspberry Pi als Filesharing Plattform nutzen. Dadruch bleiben die Daten im eigenen Netzwerk und man ist unabhängig von Clouddiensten wie Dropbox.

Die Installation ist einfach und kommt mit einem Webserver mit PHP aus, so dass auf eine Performance raubende Datenbank auf dem Raspberry Pi verzichtet werden kann. Zunächst sollte ein Webserver wie Apache mit PHP eingerichtet werden wie es in diesem Tutorial beschrieben ist.

Anschließend wird Pydio in ein Verzeichnis des Webservers kopiert. Dazu kann WinSCP genutzt werden. Ich habe einen Ext4 formatierten USB Stick in das Root Verzeichnis des Apache Webserver gemountet um mehr Speicherplatz zu haben und die Zugriffe auf die SD Karte zu reduzieren. Dies verlängert die Lebensdauer der SD Karte und erhöht die Performance. Wie ein USB Stick eingebunden werden kann wird hier beschrieben. Wenn die Dateien kopiert sind müssen die Rechte für das Data-Verzeichnis so gesetzt werden, das der Webserver hier Daten ablegen kann:

chown -R www-data /var/www/usbstick/pydio/data/

Pydio schützt einige Verzeichniss mit .htaccess Dateien. Damit diese ausgewertet werden ist Apache so zu konfigurieren, das einzelen Einstellungen durch .htaccess Dateien überschrieben werden können:

sudo nano /etc/apache2/sites-enabled/000-default

Innerhalb der Datei muss die Direktive „AllowOverride None“ für das Verzeichnis „/var/www“ auf „All“ gesetzt werden:


    Options Indexes FollowSymLinks MultiViews
    AllowOverride All
    Order allow,deny
    allow from all

Pydio benötigt für den Betrieb einige PHP Frameworks die installiert werden müssen. Dazu zählen die PHP Libraries MCrypt und PHP GD:

sudo apt-get install php5-mcrypt
sudo apt-get install php5-gd

Die Standardeinstellungen von PHP sollten für einen optimalen Betrieb von Pydio geändert werden. Dazu zählt die Deaktivierung des Ouputbufferings und die Erhöhung der maximalen Größe von POST-Requests:

sudo nano /etc/php5/apache2/php.ini

output_buffering = Off
upload_max_filesize = 500M
post_max_size = 500M

Nachdem alle Vorbereitungen getroffen sind sollte der Apache Webserver neu gestartet werden (service apache2 restart) und die Einrichtung von Pydio gestartet werden indem seine URL aufgerufen wird. (z.B: http://IP_ADRESSSE_RASPI/usbstick/pydio). Ein Wizzard führt durch die selbsterklärende Installation. Zur Speicherung von Einstellungen wird keine Datenbank gewählt, sondern die Quickstart Methode mit Dateien. Auf der Programmoberfläche angekommen sollte die maximale Uploadgröße noch erhöht werden (Benutzer oben rechts -> Einstellungen -> Globale Konfiguration -> Grundkonfiguration -> Uploaders Options: Limitierung Dateigröße 500M) Wenn alles eingerichtet ist kann das Filesharing mit der eigenen private Cloud Lösung beginnen:

Programmoberfläche der Pydio Filesharing Plattform

Programmoberfläche der Pydio Filesharing Plattform

Die Programoberfläche reagiert relativ zäh, da die Leistung des Raspberry Pi etwas zu niedrig ist. Die Transferrate beim Up-/ oder Download ist aber für kleinere Dateien ausreichend. Um die Leistung zu steigern kann die CPU des Raspberry Pi bei der Raspbian Distribution mit hilfe des Konfiguratiosnsmenüs leicht übertaktet werden.

sudo raspi-config