Sie befinden sich hier im Forenarchiv von phpforum.de wenn Sie direkt ins Forum möchten, klicken Sie bitte hier. Zur Startseite kommen Sie hier.

php-robot oder spider

Hallo,

Ich bin zwar noch Anfänger oder besser gesagt nicht einmal das, aber ich denke, dass meine Frage hier besser reinpasst.Wenn nicht bitte ich um Entschuldigung.
Und zwar liegt mir folgendes am Herzen.Ich brauche ein Programm, eine Art Spider oder Robot, das bestimmte Internet-Seiten besucht, Informationen sammelt und diese Automatisch kategorisiert und ordnet.Das kategorisieren würde vlt mit einem System aus parametern funktionieren.Aber wie funktioniert das Sammeln der Informationen aus den bestimmten Internet-seiten?(Es wären vielleicht 10 Plattformen aus denen die Information kommen würde).
Ich hoffe ich habe mich einiger maßen klar ausgedrückt.Was mich in erster Linie interessiert ist wieviel Arbeitsstunden so ein Programm in etwa brauchen würde, bzw wie aufwendig so ein Programm ist und von welchen Faktoren der Aufwand abhängt.
Ich bin auch sehr dankbar wenn ihr mir ein paar Begriffe sagt, oder wie man so ein programm nennt.Irgendwas , damit ich weiß was ich ungefär lesen soll.

Vielen Dank für eure Zeit:
Boyan Sabev

ps.: Das Programm muss nicht unbedingt auf php laufen.Ich dachte nur dass das am einfachsten zu realisieren wäre.

Hier gehts zum Orginal Eintrag "php-robot oder spider" im Forum

Antworten

Zitat:
Ich bin zwar noch Anfänger oder besser gesagt nicht einmal das, aber ich denke, dass meine Frage hier besser reinpasst.Wenn nicht bitte ich um Entschuldigung.
Kein Problem, ich verschiebe.

Such mal nach apache lucene.

*schieb*


2.

file_get_contents

mit dieser funktion lassen sich files ( auch html seiten) in ein array lesen. dieses kannst du dann mit php bearbeiten und druchsuchen wie du willst bspw. mit

strstr

druchsuchen und mit anderen string funktionen bearbeiten. ergebniss dann in eine db speichern....

...ist mal ein vorschlag von mir, so würd ich das angehen.....


Hier gehts zum Orginal Eintrag "php-robot oder spider" im Forum
 
phpforum.de | Impressum