Home » Blog » Wikipedia komplett herunterladen

Wikipedia komplett herunterladen

(Last Updated On: June 19, 2020)

Wenn Sie alle Daten abrufen möchten, sollten Sie sie wahrscheinlich auf die effizienteste Art und Weise übertragen, die möglich ist. Die wikipedia.org Server müssen einiges an Arbeit leisten, um den Wikicode in HTML zu konvertieren. Das ist zeitaufwändig sowohl für Sie als auch für die wikipedia.org Server, also ist es nicht einfach, alle Seiten zu spinnen. en.wikipedia.org/wiki/Wikipedia:Database_download#SQL_schema Wikipedia ist eine der umfassendsten und aktuellsten Enzyklopädien, die je gemacht wurden. Es ist auch völlig kostenlos und vollständig von der Community erstellt. Es ist ehrlich gesagt eines der inspirierendsten Projekte in der Geschichte, aber Sie müssen online sein, um es zu verwenden. Faire Warnung: Zum jetzigen Teil beträgt der Download auf den meisten Breitbandverbindungen etwa 23 GB und kann mehrere Stunden dauern. Sie benötigen auch eine stabile Verbindung, denn wenn sie während des Prozesses fehlschlägt, müssen Sie sie stattdessen manuell herunterladen. Dies ist wirklich einfach: Klicken Sie in der XOWA-Anwendung auf die Option Extras und dann auf Zentral herunterladen. Sie sehen verschiedene Optionen für das, was Sie herunterladen können.

Als Open Source werden diese Dateien nicht ständig aktualisiert, aber wenn Sie damit einverstanden sind, ist dies der einfachste Weg. Ich wählte die englische Jan-2012 Version ohne Bilder, das ist eine saftige 9.7 GBs. Seien Sie auf eine lange Wartezeit vorbereitet, denn 9.7 GBs können einige Zeit zum Download nehmen. Warum sollte jemand Wikipedia herunterladen wollen? Schließlich ist die Seite nur wenige Klicks entfernt und eines der besten Dinge über Wikipedia ist, dass es schnell aktualisiert wird. Eine Offline-Kopie wäre ziemlich schnell veraltet. MzReader von Mun206 arbeitet mit (obwohl nicht mit) BzReader verbunden ist, und ermöglicht das weitere Rendern von Wikicode in besserem HTML, einschließlich einer Interpretation der Monobook-Skin. Es zielt darauf ab, Seiten lesbarer zu machen. Erfordert Microsoft Visual Basic 6.0 Runtime, die nicht mit dem Download geliefert wird. Erfordert auch Inet Control und Internet Controls (Internet Explorer 6 ActiveX), die mit dem Download verpackt sind. Für die meisten Versionen laden Sie eine ZIP-Datei herunter, die die ausführbaren Dateien enthält, die zum Ausführen von XOWA erforderlich sind. Unter Windows sollten Sie dies in das Verzeichnis C:-xowa entpacken: für Mac OS X und Linux zu Ihrem /home/your_user_name/xowa, indem Sie your_user_name durch den Benutzernamen Ihres Kontos ersetzen (die Android-Version enthält eine .apk-Datei, die Sie zum Installieren der Anwendung verwenden werden). Windows-Benutzer starten die “xowa.exe” Anwendung, aber Mac OS X und Linux-Benutzer müssen ein bisschen mehr tun.

Im dumps.wikimedia.org-Verzeichnis finden Sie die neuesten SQL- und XML-Dumps für die Projekte, nicht nur Englisch. Die Unterverzeichnisse sind nach dem Sprachcode und dem entsprechenden Projekt benannt. Einige andere Verzeichnisse (z.B. einfache, Nostalgie) existieren, mit der gleichen Struktur. Diese Dumps sind auch im Internetarchiv verfügbar. Kiwix ist ein Offline-Reader, mit dem Sie die gesamte Wikipedia-Bibliothek (über 9 Gigabyte) herunterladen können, wie im Januar 2012 zu sehen war. Da das eine Menge Inhalt ist, gibt es keine Fotos enthalten. Wenn Sie auch nach Bildern suchen, können Sie ein kleineres (und älteres) Backup mit Dateien aus dem Jahr 2010 und früher erhalten, das sind jedoch nur 45.000 Seiten. Bilder und andere hochgeladene Medien sind von Spiegeln verfügbar und werden direkt von Wikimedia-Servern bereitgestellt. Bulk-Download ist (Stand September 2013) von Spiegeln verfügbar, aber nicht direkt von Wikimedia-Servern angeboten. Siehe Liste der aktuellen Spiegel.

Sie sollten vom Spiegel rsync und dann die fehlenden Bilder aus upload.wikimedia.org; Wenn Sie von upload.wikimedia.org herunterladen, sollten Sie sich auf 1 Cache-Fehler pro Sekunde drosseln (Sie können Header für eine Antwort überprüfen, um zu sehen, ob ein Treffer oder ein Fehler war, und dann wieder ausschalten, wenn Sie einen Fehler erhalten) und Sie sollten nicht mehr als eine oder zwei gleichzeitige HTTP-Verbindungen verwenden. Stellen Sie in jedem Fall sicher, dass Sie über eine genaue Benutzer-Agent-Zeichenfolge mit Kontaktinformationen (E-Mail-Adresse) verfügen, damit Ops Sie kontaktieren können, wenn ein Problem vorliegt.

About the author

Nabeel Tirmazi

Topics

  • No categories