Ähnlich wie robots.txt: aber wirklich nur ansatzweise... (Sonstige Beiträge (auch Spaß und Sinnloses))

[thread]1791[/thread]

Ähnlich wie robots.txt: aber wirklich nur ansatzweise...

steinwolf

2005-12-03 11:41

User since
2003-08-04
367 Artikel
BenutzerIn
[default_avatar]

Hi,

mir ist gerade in den Sinn gekommen folgendes:

Rein Suchmaschinenspider hat die Aufgabe Informationen zu sammeln. Er muss dafür ja mittlerweile schon gute Ansätze von Intelligenz zeigen und Millionen von unsinnigen Seiten filtern. Es ist zwar garantiert, dass der Spider so gut wie alles im Web findet, aber der Aufwand dahinter scheint mir unverhältnismäßig hoch.

Wieso, frage ich mich, überzeugt man den Webseitenbetreiber nicht davon, seine Informationen zu bündeln und öffentlich zur Verfügung zu stellen, UND DAS in einem einfachen Format, das schnell und zuverlässig auszuwerten ist?

Und hier ist der Ansatz, wie ich auf die robots.txt gekommen bin. Es ist doch kein Problem beispielsweise eine informations.txt anzulegen und dort Textdatensätze einzupflegen. So könnten zum Beispiel Angebote eines Internetshops blitzschnell in die Datenbank des Webspiders aufgenommen werden. Kleinere Shops würden nichteinmal benachteiligt. Es siegt einfach der, der das beste Angebot zu bieten hat. Selbst unauffällige Seiten könnten vermehrt Umsatz machen, da ihre Artikel von jedem ohne viel Aufwand gefunden werden können..

Gibts sowas in der Richtung schon?
Was haltet Ihr von der Idee?

mfg
steinwolf

"Did you know? You can use your old motor oil to fertilize your lawn." - Blinkster - Professionelles EDV Forum

renee

2005-12-03 11:56

User since
2003-08-04
14371 Artikel
ModeratorIn

Naja, in einer informations.txt koennte alles moegliche drinstehen, waehrend beim Durchsuchen der Seiten der tatsaechliche Seiteninhalt zaehlt. Mit einer zentralen Datei, koennte man die Suchmaschinen austricksen um an eine hohe Position bei den Ergebnissen zu kommen.

Meine info.txt koennte dann die 100 meistgesuchten Worte/Begriffe beinhalten, waehrend meine Website dann das Verhalten der kleinen Timbuktu-Schnecke in Hintertupfingen zum Thema hat. Ist also eine eher unpraktikable Idee (meiner Meinung nach)...

OTRS-Erweiterungen (http://feature-addons.de/)
Frankfurt Perlmongers (http://frankfurt.pm/)
--

Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
Perl-Entwicklung: http://perl-services.de/

steinwolf

2005-12-03 12:00

User since
2003-08-04
367 Artikel
BenutzerIn
[default_avatar]

ja das stimmt. Aber sowas könnte man doch bestimmt kompensieren, indem man den User befragt ob die Information auch zutreffend ist. Quasi ein menschliches Rating noch einführt.

EDIT:

Oder noch besser. Eine Zwangsregistrierung ist notwendig um in den Index aufgenommen zu werden und der Registrierende verpflichtet sich, dass die Angaben stimmen. Sowas würde natürlcih nur bei Produkt/Artikelsuche funktionieren..\n\n

"Did you know? You can use your old motor oil to fertilize your lawn." - Blinkster - Professionelles EDV Forum

renee

2005-12-03 12:26

User since
2003-08-04
14371 Artikel
ModeratorIn

Da ist zu viel Interaktion noetig. Kostet zu viel Geld...

ptk

2005-12-03 14:47

User since
2003-11-28
3645 Artikel
ModeratorIn
[default_avatar]

Meinst du sowas wie Google Sitemaps? https://www.google.com/webmasters/sitemaps/login

coax

2005-12-03 14:49

User since
2003-08-11
457 Artikel
BenutzerIn
[default_avatar]

[quote=steinwolf,03.12.2005, 10:41]Gibts sowas in der Richtung schon?[/quote]
In der Richtung, Ja. Die Meta-Angaben in (X)HTML-Dokumenten stellen so etwas dar.

Code: (dl )

1
2
3

<meta name="description" content="..." />
<meta name="keywords" content="..." />
<!-- etc. -->

Und genau das was du beschrieben hast realisiert man mit RDF- && RSS-Feeds.

Grusz Christian.

,,Das perlt aber heute wieder...'' -- Dittsche

betterworld

2005-12-03 23:57

User since
2003-08-21
2614 Artikel
ModeratorIn

user image

[quote=renee,03.12.2005, 10:56]Meine info.txt koennte dann die 100 meistgesuchten Worte/Begriffe beinhalten, waehrend meine Website dann das Verhalten der kleinen Timbuktu-Schnecke in Hintertupfingen zum Thema hat. Ist also eine eher unpraktikable Idee (meiner Meinung nach)...[/quote]
Denselben Effekt koenntest Du erreichen, indem Du bei einem Crawler-Zugriff (den Du am User-Agent erkennen kannst) die meistgesuchtesten Woerter ausgibst und andernfalls die Texte ueber Timbuktu-Schnecken.

Lieblingsmodule: CPAN:

IPC::System::Simple, CPAN:

Path::Class

jan

2005-12-04 03:06

User since
2003-08-04
2536 Artikel
ModeratorIn

cloaking. vollkommen legal, nur die spider mögen's nicht, wenn sie's erkennen. lässt sich von spiderseite natürlich auch wiederum mit vollkommen legalen möglichkeiten identifiziern und umgehen. ich habe im moment für meinen emailspam cloudmark entdeckt, funktioniert wunderbar. das ganze basiert darauf, dass von den emails checksums gebildet werden, die dann wiederum gegen einen server verifiziert werden. kennt der server die mail als spam, wird sie in den spam-ordner verschoben. kennt er sie nicht als spam, aber es ist spam, reicht ein kleiner klick auf "block" und ich sehe sie nie wieder. wenn genug leute (oder genug leute, die meist richtig lagen, kA) das als spam gesetzt haben, fliegt die mail allgemein bei allen in den spam-filter. ist natürlich auch nicht perfekt, das system und man könnte annehmen, dass manche bösen gesellen die newsletter von konkurrenten rauskicken wollen, aber davon mal abgesehen ist das imho auch das nächste bei den suchmaschinen. ein "spam"-link bei jedem google-resultat. wenn genug leute (oder leute mit einer hohen credibility, weil das, was sie früher als spam markierten, oft am ende auch als spam klassifiziert wurde) gesagt haben "das ist spam", wird es behandelt wie spam.

GwenDragon

2005-12-04 13:31

User since
2005-01-17
14911 Artikel
Admin1

Klar ist cloaking legal.

Bei einigen Suchmascheinen führt das aber dazu, dass die Domain sehr, sehr lange oder für immer aus dem Index fliegt.

die Drachin Gwen

Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten

sri

2005-12-05 05:24

User since
2004-01-29
828 Artikel
BenutzerIn

http://base.google.com

http://mojolicio.us/

View all threads created 2005-12-03 11:41.