Wikipedia:Wikipedistik/Leserinteressen
aus Wikipedia, der freien Enzyklopädie
Die Serverzugriffsstatistiken in Verbindung mit der Kategorisierung der Artikel geben Aufschluss über die Verteilung der Interessen der Leser. So kann man für die meisten Artikel den Kategorienbaum bis zu den Hauptkategorien zurückverfolgen und dann den Anteil der Seitenaufrufe von Artikeln, die zu einer der Hauptkategorien gehören, an den gesamten Seitenaufrufen bestimmen (jeweils der erste Wert in der folgenden Tabelle in Prozent). Die Werte summieren sich nicht zu 100%, deshalb kann man die Seitenaufrufe auf die Hauptkategorien verteilen, d.h. wenn z.B. ein zu zwei Hauptkategorien gehörender Artikel 20 mal aufgerufen wird, werden für beide Hauptkategorien jeweils 10 Aufrufe gezählt (jeweils der zweite Wert in der folgenden Tabelle in Prozent).
Stand: Dezember 2004
Hauptkategorie | Februar | April | Juni | August | Oktober |
---|---|---|---|---|---|
Archäologie | 0.47 / 0.11 | 0.45 / 0.09 | 0.44 / 0.09 | 0.52 / 0.11 | 0.59 / 0.15 |
Astronomie | 2.84 / 1.57 | 1.98 / 1.24 | 2.09 / 1.29 | 1.82 / 1.19 | 1.71 / 1.10 |
Auszeichnung | 1.03 / 0.22 | 0.97 / 0.23 | 0.86 / 0.21 | 0.74 / 0.21 | 1.07 / 0.27 |
Bergbau | 0.12 / 0.03 | 0.14 / 0.04 | 0.15 / 0.04 | 0.13 / 0.04 | 0.15 / 0.04 |
Biologie | 8.84 / 5.26 | 8.57 / 5.04 | 8.45 / 4.94 | 8.75 / 5.32 | 9.03 / 5.44 |
Chemie | 3.90 / 2.18 | 4.23 / 2.50 | 4.18 / 2.46 | 3.50 / 2.08 | 4.00 / 2.38 |
Esoterik | 0.70 / 0.19 | 0.67 / 0.20 | 0.68 / 0.20 | 0.89 / 0.24 | 1.03 / 0.24 |
Essen und Trinken | 0.76 / 0.50 | 1.08 / 0.72 | 1.37 / 0.90 | 1.50 / 1.04 | 1.39 / 0.96 |
Ethnologie | 1.24 / 0.73 | 1.04 / 0.58 | 1.03 / 0.58 | 0.95 / 0.53 | 0.75 / 0.42 |
Freizeit und Spiele | 5.40 / 1.82 | 6.06 / 2.18 | 5.35 / 1.76 | 6.02 / 1.98 | 5.83 / 1.88 |
Geographie | 14.95 / 4.20 | 15.03 / 4.22 | 15.52 / 4.36 | 16.03 / 4.52 | 15.69 / 4.28 |
Geowissenschaft | 17.21 / 5.38 | 17.03 / 5.25 | 17.61 / 5.42 | 17.88 / 5.46 | 17.73 / 5.31 |
Geschichte | 22.19 / 11.78 | 18.49 / 9.07 | 17.38 / 8.04 | 15.91 / 6.89 | 15.02 / 6.09 |
Informatik | 5.83 / 3.98 | 6.56 / 4.64 | 7.88 / 5.74 | 7.34 / 5.26 | 8.02 / 5.80 |
Interdisziplinäre Felder | 0.07 / 0.04 | 0.06 / 0.04 | 0.08 / 0.05 | 0.06 / 0.04 | 0.06 / 0.04 |
Journalismus | 0.59 / 0.13 | 0.58 / 0.14 | 0.56 / 0.13 | 0.63 / 0.15 | 0.64 / 0.16 |
Katastrophenschutz | 0.06 / 0.03 | 0.05 / 0.02 | 0.05 / 0.02 | 0.06 / 0.02 | 0.05 / 0.02 |
Kunst | 10.99 / 2.70 | 11.31 / 2.76 | 10.95 / 2.64 | 10.92 / 2.64 | 12.54 / 2.93 |
Literatur | 6.38 / 1.76 | 6.29 / 1.70 | 6.30 / 1.72 | 6.08 / 1.68 | 6.41 / 1.84 |
Mathematik | 3.97 / 2.98 | 3.80 / 2.90 | 3.78 / 2.84 | 2.97 / 2.18 | 3.34 / 2.47 |
Medizin | 3.72 / 2.07 | 3.72 / 2.13 | 3.56 / 1.95 | 3.80 / 2.17 | 3.94 / 2.22 |
Militärwesen | 3.32 / 1.22 | 3.56 / 1.29 | 3.39 / 1.28 | 3.65 / 1.38 | 4.58 / 1.46 |
Musik | 4.36 / 2.35 | 4.26 / 2.16 | 4.35 / 2.32 | 3.82 / 1.89 | 3.96 / 1.97 |
Mythologie | 0.98 / 0.24 | 1.11 / 0.27 | 1.35 / 0.32 | 1.39 / 0.34 | 1.18 / 0.29 |
Organisation | 2.93 / 1.06 | 2.85 / 1.03 | 2.85 / 0.99 | 3.06 / 1.12 | 3.13 / 1.06 |
Parawissenschaft | 0.05 / 0.03 | 0.05 / 0.03 | 0.06 / 0.04 | 0.08 / 0.04 | 0.06 / 0.03 |
Person | 15.23 / 2.86 | 15.22 / 2.88 | 14.88 / 2.82 | 15.15 / 2.91 | 15.69 / 2.98 |
Philosophie | 3.15 / 1.02 | 2.96 / 1.00 | 2.99 / 1.05 | 2.44 / 0.87 | 2.71 / 0.94 |
Physik | 4.50 / 2.23 | 4.51 / 2.36 | 4.27 / 2.17 | 3.57 / 1.81 | 4.33 / 2.21 |
Politik | 26.22 / 6.65 | 26.27 / 6.65 | 26.23 / 6.66 | 25.60 / 6.40 | 26.79 / 6.63 |
Pseudowissenschaft | 0.11 / 0.06 | 0.30 / 0.15 | 0.17 / 0.08 | 0.19 / 0.09 | 0.14 / 0.07 |
Psychologie | 1.32 / 0.48 | 1.39 / 0.51 | 1.47 / 0.53 | 1.68 / 0.61 | 1.83 / 0.66 |
Pädagogik | 0.52 / 0.19 | 0.61 / 0.23 | 0.75 / 0.29 | 0.84 / 0.31 | 0.95 / 0.36 |
Recht | 1.94 / 0.96 | 2.07 / 0.99 | 1.99 / 0.94 | 2.07 / 1.02 | 2.14 / 1.05 |
Religion | 6.63 / 2.88 | 6.58 / 2.88 | 6.05 / 2.50 | 5.91 / 2.33 | 5.91 / 2.27 |
Räumliche Zuordnung | 29.76 / 8.22 | 30.47 / 8.50 | 31.16 / 8.80 | 32.94 / 9.42 | 32.06 / 9.08 |
Sexualität | 2.01 / 1.27 | 2.11 / 1.38 | 2.11 / 1.42 | 2.74 / 1.91 | 2.80 / 1.87 |
Soziologie | 23.72 / 5.48 | 24.01 / 5.64 | 23.87 / 5.65 | 24.06 / 5.65 | 25.89 / 6.01 |
Sport | 1.37 / 0.90 | 1.82 / 1.07 | 2.45 / 1.37 | 4.57 / 3.23 | 2.32 / 1.30 |
Sprache, Schrift und Zeichen | 8.00 / 4.34 | 7.70 / 4.20 | 7.75 / 4.18 | 7.41 / 4.10 | 7.47 / 3.99 |
Technik | 12.60 / 5.11 | 13.47 / 5.59 | 13.68 / 5.68 | 13.01 / 5.18 | 15.23 / 6.06 |
Titel | 0.08 / 0.02 | 0.10 / 0.02 | 0.09 / 0.02 | 0.10 / 0.02 | 0.08 / 0.02 |
Transport & Verkehr | 3.64 / 1.94 | 4.33 / 2.27 | 4.17 / 2.17 | 4.86 / 2.45 | 4.42 / 2.16 |
Wirtschaft | 4.32 / 2.13 | 5.42 / 2.83 | 5.55 / 2.87 | 5.36 / 2.78 | 5.91 / 3.13 |
Zeitbegriff | 1.86 / 0.73 | 0.99 / 0.39 | 1.12 / 0.47 | 0.94 / 0.39 | 0.96 / 0.38 |
gesamt | 269.88 / 100.00 | 270.29 / 100.00 | 271.03 / 100.00 | 271.95 / 100.00 | 279.53 / 100.00 |
Berechnet man den Durchschnitt über alle vier Monate der Mehrfachzählungen (linke Zahl) ergibt sich daraus folgende 'Rangliste' der Themen:
Rang | Kategorie | Prozent |
1 | Räumliche Zuordnung | 31.3 |
2 | Politik | 26.2 |
3 | Soziologie | 24.3 |
4 | Geschichte | 17.8 |
5 | Geowissenschaft | 17.5 |
6 | Geographie | 15.4 |
7 | Person | 15.2 |
8 | Technik | 13.6 |
9 | Kunst | 11.3 |
10 | Biologie | 8.7 |
Alle folgenden Angaben beziehen sich auf die Werte vom Oktober. An der letzten Zeile der Tabelle sieht man, dass die kategorisierten Artikel durchschnittlich zu 2.8 Hauptkategorien gehören. Für die einzelnen Hauptkategorien ergeben sich andere Verhältnisse. Soziologieartikel sind z.B. durchschnittlich 4.3 Hauptkategorien zugeordnet. Besonders diese hohen Werte sind mit Vorsicht zu genießen. So sind etwa alle Personen, die jemals einen Beruf ausgeübt haben, über die Kategorie Beruf der Hauptkategorie Soziologie zugeordnet, was diese Kategorie unsinnig aufbläht.
Um die Tabelle zu erstellen, muss man die folgenden beiden Programme nacheinander ablaufen lassen. (Unter Linux sollte man LANG=C einstellen.)
#!/usr/bin/perl use bytes; %unesc = ("\\" => "\\", "n" => "\n", "r" => "\r", "0" => "\0", "Z" => "\x1A", "\"" => "\"", "'" => "'"); $n=0; $re = "\\(n,n,s,s,s,n,s,s,s,n,n,n,n,n,s,s\\)"; $re =~ s/n/(.*?)/g; $re =~ s/s/'((?:\\\\\\\\)*|.*?[^\\\\](?:\\\\\\\\)*)'/g; open REDIR, ">redir"; open DUMP, "bzcat cur_table.sql.bz2 |"; while(<DUMP>) { while(/$re/g) { ($id, $namespace, $titel, $text, $comment, $user, $timestamp, $flags, $is_redirect) = ($1, $2, $3, $4, $5, $7, $8, $10, $11); next if($id eq '' || $namespace eq '' || $titel eq '' || $user eq '' || $timestamp eq ''); next unless $namespace==0 || $namespace==14; $text =~ s/\\(.)/$unesc{$1}/g; $titel =~ s/\\(.)/$unesc{$1}/g; $titel =~ s/\s/_/g; if($namespace==0) { if($is_redirect) { $text =~ /#redirect ?\[\[([^\]\|]*)\]\]/i; $ziel=$1; $ziel =~ s/\s/_/g; print REDIR "$titel $ziel\n"; } else { print REDIR "$titel $titel\n"; } } while($text =~ /\[\[Kategorie:(.*?)(?:\||\]\])/g) { $kat = ucfirst $1; $kat =~ s/\s/_/g; push @{$artikel{$kat}}, $namespace==14?"Kategorie:$titel":$titel; } print "$n\n" if ++$n%1000==0; }} close REDIR; sub sucheArtikel { my $kat = shift; $untersucht{$kat}++; foreach $artikel (@{$artikel{$kat}}) { if($artikel =~ /^Kategorie:(.*)$/) { sucheArtikel($1) unless defined $untersucht{$1}; } else { $katArtikel{$artikel}++; } } } open OUT, ">Kategorien"; foreach $hauptkat (@{$artikel{"!Hauptkategorie"}}) { if($hauptkat =~ s/^Kategorie:(.*)$/$1/) { %katArtikel = (); %untersucht = (); sucheArtikel($hauptkat); foreach $artikel (sort keys %katArtikel) { print OUT "$hauptkat $artikel\n"; } } } close OUT;
#!/usr/bin/perl open REDIR, "redir"; while(<REDIR>) { ($von, $nach) = split; $redir{$von} = $nach; } close REDIR; open KAT, "Kategorien"; while(<KAT>) { chop; ($hauptkat, $artikel) = split; unless($hauptkat eq "Wikipedia") { $kat{$hauptkat}{$artikel}++; $nKat{$artikel}++; } } close KAT; for($monat=2; $monat<=10; $monat+=2) { open URL, sprintf("url_2004%02i.html", $monat); while(<URL>) { ($n, $x, $x, $x, $url) = split; next unless $url =~ /^\/wiki\/(.*)$/; $artikel = $1; next if $artikel =~ /:/ || !defined $redir{$artikel} || $artikel eq "Hauptseite" || $artikel eq "Aktuelle_Ereignisse" || $artikel =~ /Portal/ || $artikel =~ /^Liste/ || $artikel =~ /^Index/ || $artikel eq "_vti_bin/owssvr.dll" || $artikel eq "MSOffice/cltreq.asp" || $artikel eq "w/wiki.phtml"; $artikel = $redir{$artikel}; next unless $nKat{$artikel}>0; $N[$monat] += $n; foreach $hauptkat (keys %kat) { if(defined $kat{$hauptkat}{$artikel}) { $NKat1[$monat]{$hauptkat} += $n if defined $kat{$hauptkat}{$artikel}; $NKat2[$monat]{$hauptkat} += $n/$nKat{$artikel} if defined $kat{$hauptkat}{$artikel}; } } } close URL; } print "\{| cellspacing=\"0\" border=\"1\"\n"; print "|-\n"; print "! Hauptkategorie || Februar || April || Juni || August || Oktober\n"; print "|-\n"; foreach $hauptkat (sort keys %kat) { $hk = $hauptkat; $hk =~ s/_/ /g; print "| [[:Kategorie:$hk|]]"; for($monat=2; $monat<=10; $monat+=2) { printf " || align=\"center\" | %.2f / %.2f", 100*$NKat1[$monat]{$hauptkat}/$N[$monat], 100*$NKat2[$monat]{$hauptkat}/$N[$monat]; } print "\n|-\n"; } print "| gesamt"; for($monat=2; $monat<=10; $monat+=2) { $gesamt1 = 0; $gesamt2 = 0; foreach $hauptkat (keys kat) { $gesamt1 += 100*$NKat1[$monat]{$hauptkat}/$N[$monat]; } foreach $hauptkat (keys kat) { $gesamt2 += 100*$NKat2[$monat]{$hauptkat}/$N[$monat]; } printf " || align=\"center\" | %.2f / %.2f", $gesamt1, $gesamt2; } print "\n|\}\n";