BlogKontaktTagcloud

Wikipedia-Suchmaschine

Jimmy Wales, Gründer von Wikipedia, will zusammen mit Amazon eine Suchmaschine aufbauen. Wales sagt, in einem Artikel der Zeitung "Die Welt", das vier Mangel das Suchen im Internet zum Graus machen, nach ihm währen das: "Mangel an Freiheit, Mangel an Gemeinschaft, Mangel an Verantwortung, Mangel an Transparenz." Für micht trifft vorallem der letzte Punkt zu, irgendwie habe ich das Gefühl das Google meine Suchresultate meiner Herkunft anpasst ohne das ich gross Einfluss darauf hätte.

So wie es aussieht möchte Wales mit Wiki-Technologien eine Art Index oder Verzeichniss des Internets erstellen. Ich bin mir nicht so sicher ob dass funktionieren wird (obwohl ich manchmal ein wenig zu pesimistisch bin). Das sind meine Gründe warum das nichts wird:
  1. Das hat schon mal nicht funktioniert! (siehe DMOZ)
  2. Dieses Zeugs (Wiki, Verzeichnisse, ...) zieht Spamer magisch an
  3. Das Internet ist zu gross (und wächst zu schnell) um es "von Hand" zu indexieren
  4. Wiki-Technologie ist evtl. nicht die richtige Technologie für so ein Projekt (weil es zu viele Seiten, mit zu wenig Inhalt geben wird)
Ich glaube desshalb eher nicht an diese Idee. Meiner Meinung nach würde es mehr nützen bestehende Dinge (Blogs, bookmark-sites, Microformate, Bewertungssysteme, etc.)  in "klasische" Suchmaschinen einzuweben. Ein breites Verteilen der Datenquellen würde es für Spamer auch schwiriger machen die Suchmaschine zu manipulieren.
[via joblog]
Ähnliche Beiträge:
Ein Projekt mit Stolpersteinen
The future knocks
Geheimer Code?
Google zieht um
WikiWay2.0
Comments (0)  Permalink

WikiWay2.0

WikiWay2.0 ist da! Mit WikiWay2.0 ist es möglich die kürzeste Verbindung zwischen zwei Wikipedia-Artikeln zu finden. So ist es zum Beispiel erstmals möglich die Verbindung zwischen einem Gürteltier und Bier aufzuzeigen. Dieses interessante Wissen wahr bisher gelangweilten Informatikern (ich nenne keine Namen!), die diese Informationen in müsamer Handarbeit zusammentrugen, vorbehalten.

WikiWay2.0 ist auch ganz schön Web2.0: Da werden Scriptsprachen verwendet (PHP, Javascript), wie wild XMLHTTPRequests verschickt, Bilder "gemashupt" und natürlich ist das ganze auch noch ganz schön Beta. Leider ist Rechenleistung noch immer nicht unendlich und deshalb kann eine Anfrage manchmal ganz schön lange gehen, das Warten lohnt sich aber fast immer.

Und wer jetzt den Sinn dieser ganzen Applikation noch nicht versteht - das ist nicht so schlimm, ist schliesslich Web2.0.
Ähnliche Beiträge:
Synchroner Aufruf mit XMLHttpRequest in Firefox
Viele Daten II
Viele Daten
All new webtuesday
AJAX-Chat in PHP mit UNIX IPC
Comments (8)  Permalink

Viele Daten II

Nochmals was von meiner krass-viel-daten Projekt. Die Keys nachträglich zu erstellen verschnellert zwar das Einfügen massiv, das Einfügen der Keys dauert aber vermutlich dann etwa gleich lange:

mysql> show processlist;
+----+---------+-----------+---------+---------+--------+-------------------+------------------------------------------------------------------------------------------------------+
| Id | User | Host | db | Command | Time | State | Info |
+----+---------+-----------+---------+---------+--------+-------------------+------------------------------------------------------------------------------------------------------+
| 19 | xyz | localhost | xyz | Query | 340517 | copy to tmp table | ALTER TABLE `pagelinks`
ADD UNIQUE KEY `pl_from` (`pl_from`,`pl_namespace`,`pl_title`),
ADD KEY |
| 45 | root | localhost | wikiway | Query | 0 | NULL | show processlist |
+----+---------+-----------+---------+---------+--------+-------------------+------------------------------------------------------------------------------------------------------+
2 rows in set (0.06 sec)
Also noch etwa 100 Stunden um die Keys zu erstellen. Und leider dauern die Abfragen immer noch zu lange. Desshalb werde ich als nächstes Denormalisieren.
Ähnliche Beiträge:
Viele Daten
WikiWay2.0
Suchen in Graphen und Bäumen mit SQL
Denormalsieren in MySQL
Wikipedia-Suchmaschine
Comments (0)  Permalink

Viele Daten

Viele Daten sind ein Fluch, besonders wenn man nicht die Möglichkeit hat einfach einen dickeren Rechner hinzustellen. Mein Laptop rechnet sich für eine Testinstallation momentan dumm und dämlich. Tagelange Insert-Batch gehören in zwischen zum Normalfall.

Dank dem Tipp von Chregu habe ich heute mal die Key's nachräglich hinzugefügt. Das hat das einfügen einiges schneller gemacht. Das Einfügen der Schlüssel dauert dann aber auch ein Weilchen. Das sieht dann so aus:
Query OK, 1097721 rows affected (2 hours 45 min 31.85 sec)
Records: 1097721 Duplicates: 0 Warnings: 0
Mehr zu Krass-viel-Daten vieleicht irgendwann mal später hier in diesem Blog.
Ähnliche Beiträge:
Viele Daten II
WikiWay2.0
Suchen in Graphen und Bäumen mit SQL
Denormalsieren in MySQL
Wikipedia-Suchmaschine
Comments (0)  Permalink

Ein Projekt mit Stolpersteinen

In den letzen Semesterferien konnte ich für Stefan F. Keller, respektive dessen Institut int>e>gis, während einer Woche ein Projekt realisieren. Der Projektauftrag lautete Geodaten aus Wikipediaeinträgen zu extrahieren, zu speichern und anzuzeigen.

Das Programm sollte auf dem Toolserver laufen. Der Toolserver ist ein Server der deutschen Mediawiki Foundation welcher von Sun gesponsert wurde. Auf diesem Server sind die Wikipedia-Datenbanken gespiegelt und er steht interessierten Entwicklern offen um Programme zur Weiterentwicklung von Mediawiki auszuprobieren.

Leider haben wir uns mit dem Entscheid für den Toolserver zu entwickeln auch einige Probleme eingehandelt. Zuerst hatten wir bei Projektstart keinen Login für den Server zur Verfügung was uns zwang zuerst auf einem lokalen Testserver zu entwickeln. Bereits bei der lokalen Entwicklung ergaben sich einige Problem. Da die Mediawiki-Software, welche Wikipedia betreibt, in PHP geschrieben ist wurde unser Projekt ebenfalls mit PHP entwickelt in der Hoffnung einige Mediwiki-Funktionen weiter zu verwenden. PHP erwies sich allerdings für diese Art von Projekt als relativ ungünstige Wahl da der PHP Garbage Collector nur sehr ungenügende Funktionalitäten bereit stellt.

Gegen Ende des Projekts stand dann der Zugang zum Toolserver bereit. Die Überaschung war dann um so grösser als ich dort Solaris als Betriebsystem antraf. Leider wurden auch nicht alle Daten des Wikipediaprojektes gespiegelt. Da einige Texte der Wikipedia-Datenbank ins Filesystem ausgelagert werden (der Grund dafür ist mir bis heute nicht bekannt) können diese nicht gespiegelt werden. Ich musste desshalb unser Tool so umprogrammieren das es die Daten über den Wikiproxy, einem Tool von Daniel Kinzler welches dieses Problem umgeht, geladen wurden. Dies sorgte natürlich für eine wesentlich schlechtere Performance.

Selbstverständlich habe ich auch etwas gelernt. Die "Lesson Learned" für dieses Projekt sind:

  • Früh deployen oder gar auf Zielsystem entwickeln
  • Bei kurzer Projektdauer müssen alle Ressourcen zu Beginn des Projekts bereitstehen
  • Wenn externe Datenbestände nötig sind ist deren Richtigkeit und Vollständigkeit möglichst früh abzuklähren
  • PHP eignet sich wegen ungenügendem Garbage Collector nur sehr eingeschränkt für lang laufende Skripte

Selbstverständlich sind die Resultate dieses Projekt auch Online einsehbar. Die Tabelle mit den Wikipedia-Koordinaten kann eingesehen werden. Ebenso ist es möglich Daten aus einer Koordinaten-Box auszugeben, wobei bei dieser Anfragen ist die Ausgabe aus Performancegründen auf tausend Punkte limitiert ist. Ebenso ist es möglich die fehlerhaften Koordinaten auszugeben, um diese Fehler zu korrigieren. Hier werden natürlich auch die Absichtlich falsch eingegeben Koordinaten, z.B. für Vorlagen, ausgegeben.

Und noch ein wenig off-topic: Viel einfacher währe es natürlich wenn wir die (Geo-)Daten vom Staat einfach bekomen würden, schliesslich haben wir mit unseren Steuergeldern bereits für deren Erhebung bezahlt. Mehr dazu hier und gleich bei der Petition für freie Geodaten mitmachen.

Ähnliche Beiträge:
Wikipedia-Suchmaschine
Make it human (or how to crack a CAPTCHA)
Jira status
Mailstatus in Skype
PHP Quine
Comments (1)  Permalink

Events für Computerinteressierte


  • Am 12. Juni findet an der HSR für Studenten und Alumnis in eher kleinerem Rahmen das erste FOSS Treffen statt. Die Themenliste scheint relativ flexibel zu sein und ich hoffe das wir uns nicht allzu lange mit technischen Dingen aufhalten und den Schwerpunkt auf das Open-Source-Engagement der HSR und den offenen Zugang zu Wissen setzen können.
  • Am 13. Juni, WM bedingt, bereits um 17 Uhr findet dann der Webtuesday statt. Für einen Präsentation zu "Ruby on Rails" von Patrice und anschliessendes Schweiz-gegen-Frankreich-Schauen sind wir bei eurospider (map) zu Gast. Für HSR-ler die das Spiel ohne "Ruby on Rails" geniessen wollen gibt es als Alternative zum Webtuesday eine WM-Bar (organisiert vom VSHSR Hockey, welche Ironie).
  • Am Freitag 16.6. um 12:15 zeigt Professor Heinz Domeisen an der HSR seine drei Eurobot-Teams beim "Fun Golf". Mit dabei auch Schweizermeister Pure-M.
  • Am 17. Juni findet dann der erste Wikipedia Tag statt. Unter anderem mit einem Vortrag von Prof. Bertrand "Eiffel" Meyer, der im schweizer Wikipedia-Ableger bereits einmal für Tod erklährt wurde.
Ähnliche Beiträge:
Google Open Source Jam Zürich
OpenExpo 2008 Bern
Ohloh - Social Network für Open Source
Ruby on Rails Coding Weekend
Fertig!
Comments (1)  Permalink

Happy Birthday Wikipedia!

Wikipedia wird heute 5 jährig. Herzliche Gratulation!

Wikipedia schaut nach 5 Jahren auf einen rasanten Wachstum und eine bewegte Geschichte zurück. Das sie dabei viel mit Kritik zu kämpfen hatte, und noch haben wird, verwundert wenig. Denoch ist Wikipedia wohl der bisher erfolgreichste Versuch das Wissen der Menschheit dieser auch Zugänglich zu machen.

[via heise]
Ähnliche Beiträge:
Wikipedia-Suchmaschine
WikiWay2.0
Viele Daten II
Viele Daten
Ein Projekt mit Stolpersteinen
Comments (0)  Permalink

Basteln mit Wikipedia

Habe heute ein paar nette Dinge um mit Wikipedia zu basteln entdeckt. Das gesamte deutsche Wikipedia lässt sich hier runterladen. Das dabei ein paar Daten anfallen versteht sich von selbst, die Bildaten belaufen sich gar auf 25 GB. Wenn man die Linktabelle, also die Tabelle die die Verknüpfungen der Seiten untereinander speichert, nicht heruntergeladen wird kann diese auch selbst erstellt werden. Dies dauert aber selbst auf einem schnellen Rechner über eine halbe Stunde.

Wer einige SQL Statments ausführen will ohne gleich den ganzen Datenbestand herunterzuladen kann sich des Services auf wikisign bedienen. Mit diesem kann man SQL Befehle per Webinterface auf die eine Kopie der Wikipediadatenbank absetzen. Man sollte dabie das "limit" in den Statements vernüftig setzen, sonst kann eine Abfrage schnell mal eine Stunde dauern.
Ähnliche Beiträge:
Wikipedia-Suchmaschine
WikiWay2.0
Suchen in Graphen und Bäumen mit SQL
Viele Daten II
Viele Daten
Comments (0)  Permalink

Spendenfass ohne Boden?

Die Wikimedia Foundation ruft zu einem neuen Spendenmaraton auf. Ich frage mich ob sich dieses "Geschäftsmodell" noch lange so durchsetzen lässt. Ebenso wie die Seitenzahlen, die Anzahl Seiten und der Traffic scheinen auch die Kosten zu explodieren.

Während im Jahr 2003 noch 15'000 US Dollar zur Finanzierung des Projektes ausreichten, verbrauchte Wikimedia 2004 bereits 125'000 US Dollar und dieses Jahr werden es gar 700'000 Dollar sein. Nächstes Jahr will man dann erstmals die Millionengrenze überschreiten. Ob diese hohen Kosten weiterhin nur mit Spenden gedeckt werden können ist aus meiner Sicht euserst fragwürdig, auch wenn Spenden in der USA auserordenlich gut von den Steuern abgezogen werden können.

Vieleicht müsste man sich doch überlegen ob man vileicht doch einen Teil der Kosten mit Werbung decken möchte oder mit einem Evil-Empire (z.B. mit diesem oder doch lieber mit einem anderen) zusammenspannen will.

Momentan wird aber hier weiterhin fleissig gespendet.
Ähnliche Beiträge:
Wikipedia-Suchmaschine
WikiWay2.0
Viele Daten II
Viele Daten
Ein Projekt mit Stolpersteinen
Comments (7)  Permalink
1-9/9