Zur ABBUC-INFO: Zu hoher Traffic auf der ABBUC Seite


Zur ABBUC-INFO: Zu hoher Traffic auf der ABBUC Seite

von Gast » Mi 2. Feb 2005, 11:30
Zum Beitrag im Infocenter ! ! !
Ein akutes Problem, hier meine Meinung dazu:

Wir sollten darüber nachdenken, (wenn schon die Möglichkeit besteht) den Zugriff auf die 3 bis 4 wichtigsten Suchmaschinen zu begrenzen. Also GOOGLE, MSN (evtl. auch schon mal die neue "beta.search.msn.de") und weiss nich noch.

Werbung und "Findbarkeit" sind zwar wichtig, aber wieviel Prozent der User am PC benutzen vorrangig andere Suchmaschinen?

Ich schlage einfach mal eine Abstimmung vor. Wobei wir auch daran denken sollten: bei einer Beschränkung auf wenige Searchbots kann Andreas sehr viel Arbeit sparen.

Ausserdem sollte der Zugriff auf Unterverzeichnisse (so ab der 3. Ebene) für die Bots unterbunden werden. Als Alternative dazu könnte eine Index-Seite für die Bots das Futter bereithalten.

Re: Zur ABBUC-INFO: Zu hoher Traffic auf der ABBUC Seite

von andreasb » Mi 2. Feb 2005, 23:39
Bernhard hat geschrieben: Wir sollten darüber nachdenken, (wenn schon die Möglichkeit besteht) den Zugriff auf die 3 bis 4 wichtigsten Suchmaschinen zu begrenzen. Also GOOGLE, MSN (evtl. auch schon mal die neue "beta.search.msn.de") und weiss nich noch.


Das wäre eine Möglichkeit. Wobei, so wie es aussieht, vermutlich gerade Google, MSN und Yahoo diesen Traffic verursachen.

Ich bekomme die Tage ein komplettes Server Log-file vom Provider gestellt. Dann weiß ich hoffentlich mehr. Aber er hat mir schon angekündigt, dass es ca. 25 MB umfaßt. Bis ich das ausgewertet habe, wird es ein paar Tage dauern.

Dennoch ist das Ganze nicht so einfach zu beurteilen. So gibt es z.B. Suchdienste, die die großen beliefern (MSN, Yahoo...). Ich spiele besonders auf den inktomesearch-bot an. Ich habe ihn explizit ausgeschlossen und ca. 30 IPs von ihm gesperrt, aber er hängt immerwieder auf der Seite mit anderen IPs. In anderen Foren wurde von über 60(!) IPs gesprochen die dem Dienst gehören.

Obendrein setzt sich der Suchdienst über die hinterlegten Regeln hinweg, sucht nach nicht mehr vorhandenem Content, verursacht massig Traffic dadurch und das dickste daran: Egal wieviel er durchsucht und wieviele GB er downloaded. In den Suchlisten gibt er nur einen einzigen Link raus. Jeder weitere ist kostenpflichtig.

Bernhard hat geschrieben:
Werbung und "Findbarkeit" sind zwar wichtig, aber wieviel Prozent der User am PC benutzen vorrangig andere Suchmaschinen?

Ich schlage einfach mal eine Abstimmung vor. Wobei wir auch daran denken sollten: bei einer Beschränkung auf wenige Searchbots kann Andreas sehr viel Arbeit sparen.


Der Tendenz nach sind es fast nur Google, Yahoo, MSN, Lycos, Metager, diverse RRZ-Suchmaschinen, diverse Uni-Suchmaschinen und ein paar andere. Ich mache mal eine Umfrage dazu auf.

Bernhard hat geschrieben:Ausserdem sollte der Zugriff auf Unterverzeichnisse (so ab der 3. Ebene) für die Bots unterbunden werden. Als Alternative dazu könnte eine Index-Seite für die Bots das Futter bereithalten.


Nach der heutigen Statistik drängt es mittlerweile sehr. In der vergangenen Nacht wurden wieder über 300 MB herunter geladen. Auf 30 Tage hochgerechnet liegt die Webseite dann bei 9 GB ohne dass auch nur ein User etwas geladen hätte, und ohne dass auch nur ein einziges Byte durch die Administration verursacht worden wäre. Diesen Monat wird die ABBUC Seite also vermutlich die 10GB Marke sprengen. Und das geht dann zu Lasten des ABBUC Kontos.

von Mathy » Do 3. Feb 2005, 12:16
Hallo Atarianer

Ich mag MicroSoft nicht so, also koennten wir die doch rauswerfen oder....... :-)

Tschuess

Mathy

von FlorianD » Do 3. Feb 2005, 13:17
Hallo,

wer ist inktome? Kann man die ggf. unter Strafandrohung abmahnen und eine Unterlassungserklärung erzwingen?

Grüße,
Florian

von andreasb » Do 3. Feb 2005, 13:55
FlorianD hat geschrieben:wer ist inktome? Kann man die ggf. unter Strafandrohung abmahnen und eine Unterlassungserklärung erzwingen?


inktomesearch ist eine der ältesten die es überhaupt gibt, aber sie ist somit auch eine der "technisch dümmsten" suchmaschinen. Meines Wissens wird sie größtenteils durch Yahoo unterstützt. Sie ist ähnlich einer Institution wie die dpa (deutsche presse agentur). Sie sammelt die Informationen und reicht sie gegen Geld weiter. Sie beliefert u.a. die ganz großen kommerziellen Suchmaschinen mit den Ergebnissen.

Verklagen kann man sie nicht. Sondern nur über Regeln ausschließen. Leider versteht sie nicht jede Regel. Da bleibt dann nur noch der IP-ban und die permanente Beobachtung der Webseite. Inzwischen sind es über 40 IPs die ich blocke. Und die Beobachtung ist sehr zeitaufwändig.

von Schmutzpuppe » Do 3. Feb 2005, 15:30
Ich habe gehört das Inktomi die robots.txt ignoriert aber du könntest ja trotzdem mal folgendes versuchen:

User-agent: Inktomi Slurp
Disallow: /

von andreasb » Do 3. Feb 2005, 18:25
Slurp ist mit drin. Über 160 Einträge sind in der Robots.txt. Zusätzlich verbietet die htaccess den Zugriff auf alle Unterverzeichnisse. Aber solange von der Startseite aus alle Inhalte per Link ohne Pfadangaben zu erreichen sind, greift die htaccess nicht. Inzwischen hat die IP-ban Liste über 50 IPs.

Inktome ist im moment "nur" 5 mal vertreten. Statt dessen ist der googlebot mit rund 20 neuen IPs gleichzeitig auf der Webseite. :(

von Schmutzpuppe » Do 3. Feb 2005, 21:40
andreasb hat geschrieben:Slurp ist mit drin. Über 160 Einträge sind in der Robots.txt. Zusätzlich verbietet die htaccess den Zugriff auf alle Unterverzeichnisse. Aber solange von der Startseite aus alle Inhalte per Link ohne Pfadangaben zu erreichen sind, greift die htaccess nicht. Inzwischen hat die IP-ban Liste über 50 IPs.

Inktome ist im moment "nur" 5 mal vertreten. Statt dessen ist der googlebot mit rund 20 neuen IPs gleichzeitig auf der Webseite. :(

was meinst du mit 160 Einträger?
Ich kann nur folgende sehen:
User-agent: *
Disallow: admin.php
Disallow: /abbucfiles/
Disallow: /abbucshop/
Disallow: /abbucshopbpl/
Disallow: /abbucshoppd/
Disallow: /admin/
Disallow: /albums/
Disallow: /blocks/
Disallow: /cgi-bin/
Disallow: /classes/
Disallow: /download/
Disallow: /files/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /modules/
Disallow: /netbpm/
Disallow: /shopabbuc/
Disallow: /shoppd/
Disallow: /shoppd/
Disallow: /source/
Disallow: /themes/
Die IP's in Griff zu bekommen wird schwierig sein.
Hm, dumme Sache :(

von Schmutzpuppe » Do 3. Feb 2005, 21:43
Ach ja, könnte vielleicht interessant sein:
http://www.kloth.net/internet/badbots.php

von andreasb » Do 3. Feb 2005, 22:52
Sorry. Da war ein Tippfehler in meinem Posting. Die o.g. Liste ist die Robots.txt mit den gesperrten UnterVerzeichnissen. Der Scan des Roots ist erlaubt. Die 163 Einträge mit denen die Suchmaschinen gesperrt werden stehen in der htaccess. Zusätzlich ist ein entsprechender Metatag eingesetzt.

Die IPs einzeln zu sperren ist sehr viel Aufwand. Bei inktome, msnbot und googlebot geht das noch über IP-range. Da sind zur zeit ca. 1400 IPs sperrt. U.a.

68.142.249.1 - 68.142.249.254
68.142.250.1 - 68.142.250.254
68.142.251.1 - 68.142.251.254
66.196.91.1 - 66.196.91.150
66.196.90.1 - 66.196.90.254
66.249.64.1 - 66.249.64.128
66.249.71.1 - 66.249.71.128

Andere Bereiche gehen nur einzeln.

Die Liste der Badbots bei kloth.net hatte ich mal in den Fingern und mich dann für eine fertige Liste entschieden, da leider die ID-Namen nicht genannt sind über die diese Bots zu erkennen sind.

Als Anlaufstelle mit passenden Lösungen habe ich http://www.trafficklau.de/ verwendet.

von HiassofT » Fr 4. Feb 2005, 13:57
@andreas: die Idee mit dem Sperren der IP-Adresse finde ich nicht so gut. Je nach dem wie das genau realisiert ist, kann das auch nach hinten losgehen: Was passiert zB wenn über einen "grossen" Proxy viele normale Anfragen (von verschiedenen Usern) kommen, wahrscheinlich kann man das auch für eine vorübergehende Denial Of Service Attacke nutzen (wenn man http-requests mit gefälschter IP absetzt - kann aber etwas trickreich sein).

Besser wäre es wohl, einen Traffic-Shaper zu verwenden der dann automatisch die Bandbreite begrenzt.

so long,

Hias

von andreasb » Fr 4. Feb 2005, 16:03
HiassofT hat geschrieben:Besser wäre es wohl, einen Traffic-Shaper zu verwenden der dann automatisch die Bandbreite begrenzt.


Das sehe ich auch so. Das Problem über die Sperrung ganzer Bereiche kann ein Problem werden. Bisher habe ich aber noch kein PHPnuke Modul gefunden das die Bandbreite (genau genommen die Hits) begrenzt. Die gesperrten Bereiche sind m.W. nicht von Proxys benutzt.

Zuerst habe ich IPs einzeln gesperrt. Aber z.b. inktome und googlebot gehen äußerst aggressiv vor. Sperrt man eine IP, wird diese teilweise durch zwei oder mehr neue ersetzt. So tummelten sich bis zu 80 Bots gleichzeitig auf der Seite. So viel Zeit kann ich nicht investieren alles einzeln zu sperren. 3-4 Std/Tag sind dafür zuviel.

Am besten wäre es wenn es auch einen Abgleich der IPs gäbe. Eine einzelne IP die 100 Hits pro minute produziert, würde gesperrt. Aber 20 IPs des selben Bots die je nur 5 Hits pro Minute verursachen, würden durchrutschen und dennoch genauso viel traffic verursachen. Andererseits bei einer Kopplung mit IP Bereichen wäre man wieder am Anfang. Aber auf alle Fälle könnte man Webspider über einen Traffic Shaper ausgrenzen.

Ich halte Ausschau nach einem passenden Traffic Begrenzer.

grüße
andreas

von Gast » Sa 5. Feb 2005, 17:37
Schmutzpuppe hat geschrieben:Ach ja, könnte vielleicht interessant sein:
http://www.kloth.net/internet/badbots.php


Hab ich grad mal angesehen. Ich finde das schon sehr bedenklich dass Bots den ROBOTS.TXT ignorieren. Oder schlimmer noch, auslesen um dann gezielt in den Verzeichnissen zu suchen die eigentlich gesperrt sein sollen. Das grenzt ja schon an Hausfriedensbruch, das gehört verboten. Aber um Kohle zu machen vergessen wohl auch diese Suchdienste jede Nettiquette.

Völlig verschreckt hab ich gleich mal meine Internet-Logs durchgesehen. Aber bei mir hält sich der Traffic von Suchmaschinen und ähnlichem Getier in Grenzen.

von andreasb » Sa 12. Feb 2005, 17:27
Inzwischen habe ich die Server-Log Files ausgewertet.

Die Maßnahmen zur Reduzierung des Traffics waren:
- Alle großen Bilder wurden aus der Bibliothek entfernt.
- Alle Atari-Werbevideos (Commercials) wurden aus der Media-Galerie gelöscht.
- Unterverzeichnisse wurden für alle bekannten Suchmaschinen gesperrt.
- Deep-Links wurden gesperrt (Z.B. Links auf unsere Audio/Bilder/Videos von fremden Seiten)
- Die Metatags für Suchmaschinen wurden verbessert
- Webseiten-Downloader (Webspider) wurden gesperrt
- Die IP-Adressen der Inktome Suchmaschine wurden explizit gesperrt
- Die IP-Adressen der Google-Bilder Suchmaschine wurden explizit gesperrt

Das war eine ganze Menge Arbeit. Besonders um die Videos tut es mit leid, da ich dort sehr viel Arbeit zur Störungsbeseitigung, Bildverbesserung und Umwandlung zu mpg steckte. Auch um die hochauflösenden Detailbilder ist es schade, da ich dazu natürlich jedes Gerät gekauft, auseinander genommen und fotografiert hatte.

Teile der gelöschten Inhalte werden evtl. wiederkommen. Dann aber nur mit entsprechenden Schutzvorrichtungen.

Letztendlich konnte ich auch in der Backup-Software einen Bug ausmachen, der beim täglichen sichern der Webseite unnötigen Traffic verursachte. Da es sich um gekaufte Software handelt, gibt es dafür bald ein Update. Bis dahin wird die Webseite allerdings nur zweimal pro Woche gesichert.

Einen ersten Erfolg zur Trafficreduzierung gibt es bereits. Genaues werde ich aber erst Ende März wissen.

von cas » Sa 12. Feb 2005, 22:53
Hallo Andreas,

ist im Webserver eingestellt, das er Webseiten gzipped ausliefert, wenn der Browser das unterstützt (machen imho alle Mozilla/Netscape und IE). Bei Apache 1.x war das mod_gzip, bei Apache 2 ist das eingebaut und muss nur angeschaltet werden.

Das kann auch den Traffic reduzieren.

Ciao

Carsten

von GoodByteXL » So 13. Feb 2005, 13:40
Hallo Andreas!

Die Videos, Bilder und andere interessante Details lassen sich aber evtl. für eingeloggte Mitglieder freischalten wie die Downloads ohne den Traffic zu erhöhen...

Gruß & GoodByte

Walter