Page 1 of 2 1 2 LastLast
Results 1 to 15 of 17

Frage zu robots.txt

This is a discussion on Frage zu robots.txt within the Deutsch forums, part of the General Discussion category; Hallo, ich möchte eine robots.txt erstellen und damit erreichen das Google AdSense alle Seiten erreicht und der rest nur den ...

  1. #1
    Junior Member
    Real Name
    Christian
    Join Date
    Aug 2010
    Location
    Germany
    Posts
    20
    Liked
    0 times

    Frage zu robots.txt

    Hallo,

    ich möchte eine robots.txt erstellen und damit erreichen das Google AdSense alle Seiten erreicht und der rest nur den wesentlichen Inhalt und die Sitemap sieht.

    Die robots.txt soll für Ruhrpott-Info.de sein.

    Code:
    User-agent: Mediapartners-Google
    Allow: /
     
    User-agent: *
    Disallow: *.php
     
    Sitemap: http://www.ruhrpott-info.de/sitemap_index.xml.gz
    Ist die robots.txt so in Ordnung? oder sehen die Suchmaschinen meine Seite garnicht mehr durch "Disallow: *.php"?

  2. #2
    Senior Member
    Real Name
    Fabio
    Join Date
    Jul 2008
    Location
    Germany
    Posts
    758
    Liked
    11 times
    Blog Entries
    1
    Hallo,

    du musst das mit den Useragents nur ein bisschen anpassen:
    Code:
    User-agent: *
    Disallow: /*.php$
    doch, die Suchmaschinen gehen noch auf deine Seite, aber nicht dort hin, wo eine php Datei in der url ist, also calendar.php, private.php oder ähnliches.

    Diese Methode ist halt äußerst radikal.


    Gruß,
    Fabio

  3. #3
    Junior Member
    Real Name
    Christian
    Join Date
    Aug 2010
    Location
    Germany
    Posts
    20
    Liked
    0 times
    Wie würde denn eine sinnvolle robots.txt aussehen? Mir geht es darum Inhalt der auf anderen Seiten auch zu finden ist zu vermeiden z.B. faq.php.

    Code:
    Unique Content und Duplicate Content
     
    Das wichtigste und wertvollste, was eine Webseite besitzt ist einzigartiger Content ("Unique Content"), sprich Content, der sonst nirgendwo im Netz zu finden ist. Wenn Sie ihre SEO-Bemühungen auf die vorderen Plätze in den Suchmaschine katapultieren sollen, brauchen Sie soviel wie möglich davon.
    Generell gilt, dass Ihre Webseite nicht nur schön aussehen und klar strukturiert sein sollte, sondern vor allem über genügend wirklichen Inhalt verfügen muss. Bilder können noch so schön sein, was für Google zuerst einmal zählt ist Text (Ausnahme siehe unten). Davon sollten Sie genügend auf Ihrer Seite haben und, wo immer möglich, in Form von Unique-Content.
    Das Gegenteil von Unique Content ist sogenannter Duplicate Content, den Sie tunlichst vermeiden sollten. Falls sich doppelte Inhalte dennoch nicht verhindern lassen, sollten Sie sich überlegen, welche der Seiten die größte Chance hat, in den Suchergebnissen positive Ergebnisse zu erzielen. Alle weiteren Seiten, die über identische Inhalte verfügen, sollten Sie über das canonical-Tag in HTML nach dem Schema <link rel="canonical" href="http://www.beispiel.de "> als Duplicate Content kennzeichnen und auf diejenige Seite, die in den Google Ergebnislisten auftauchen soll (im Beispiel Unix/FreeBSD Web Hosting für Profis), verweisen lassen. Doppelte Seiten tauchen dadurch nicht in den Google Suchergebnissen auf und die eigentliche Seite nimmt keinen Schaden. Nach demselben Schema sollten Sie übrigens auch vorgehen, wenn Sie über verschiedene Domains hinweg mit Duplicate Content zu kämpfen haben.

  4. #4
    Senior Member
    Real Name
    Fabio
    Join Date
    Jul 2008
    Location
    Germany
    Posts
    758
    Liked
    11 times
    Blog Entries
    1
    Hi,

    normalerweise nutzt man "Disallow" und listet dann alles auf, was nicht eingetragen werden soll:
    Code:
    User-agent: *
    Disallow: /*-print/
    Disallow: /vbseocp.php
    Disallow: /login.php
    Disallow: /member.php
    Disallow: /memberlist.php
    Disallow: /newthread.php
    Disallow: /newreply.php
    Disallow: /printthread.php
    Disallow: /private.php
    Disallow: /profile.php
    Disallow: /register.php
    Disallow: /search.php
    Disallow: /sendmessage.php
    so ähnlich kann so etwas dann aussehen. Diese robots.txt nutze ich selber.


    Gruß,
    Fabio

  5. #5
    Junior Member
    Real Name
    Christian
    Join Date
    Aug 2010
    Location
    Germany
    Posts
    20
    Liked
    0 times
    Der YahooBot stöbert immer in usercp.php sollte man die auch sperren?

  6. #6
    Senior Member
    Real Name
    Fabio
    Join Date
    Jul 2008
    Location
    Germany
    Posts
    758
    Liked
    11 times
    Blog Entries
    1
    Stimmt, die fehlt dort. Wäre sinnvoll, weil man dort als Gast eh nichts angezeigt bekommt.

  7. #7
    Junior Member
    Real Name
    Christian
    Join Date
    Aug 2010
    Location
    Germany
    Posts
    20
    Liked
    0 times
    ok vielen dank

  8. #8
    Junior Member
    Real Name
    Christian
    Join Date
    Aug 2010
    Location
    Germany
    Posts
    20
    Liked
    0 times
    Ist meine robots.txt jetzt so optimal, vollständig und fehlerfrei?

    Code:
    User-agent: Mediapartners-Google
    Allow: /
     
    User-agent: *
    Disallow: /*-print/
    Disallow: /vbseocp.php
    Disallow: /login.php
    Disallow: /member.php
    Disallow: /memberlist.php
    Disallow: /newthread.php
    Disallow: /newreply.php
    Disallow: /printthread.php
    Disallow: /private.php
    Disallow: /profile.php
    Disallow: /register.php
    Disallow: /search.php
    Disallow: /sendmessage.php
    Disallow: /usercp.php
     
    Sitemap: http://www.ruhrpott-info.de/sitemap_index.xml.gz

  9. #9
    Senior Member
    Real Name
    Fabio
    Join Date
    Jul 2008
    Location
    Germany
    Posts
    758
    Liked
    11 times
    Blog Entries
    1
    Also ich finde sie gut so.

    Du kannst aber die ersten beiden Zeilen mit den Mediapartners entfernen, da diese Dateien, die unten ausgeschlossen werden, nicht einmal für Adsense relevant sind.


    Gruß,
    Fabio

  10. #10
    Junior Member
    Real Name
    Christian
    Join Date
    Aug 2010
    Location
    Germany
    Posts
    20
    Liked
    0 times
    Im englischen Forum habe ich noch diese robots.txt gefunden. Dazu habe ich noch einige Fragen.

    1. Was ist ia_archiver?
    2. Was bewirkt Crawl-delay: 60?
    3. Slurp = YahooBot?
    4. Hier ist z.B. postings.php gesperrt, können mit dieser robots.txt noch alle Foren gelesen werden?
    5. Ist es sinnvoller diese robots.txt zu verwenden?


    Code:
    # Allow Archive.org to save snapshots of everything
    User-agent: ia_archiver
    Allow: /
    
    # Tame yahoo... it tends to eat a ton of resources without a delay
    User-agent: Slurp
    Crawl-delay: 60
    
    
    #list individual pages and files here that all bots should ignore, as well as group extentions.
    #If you re-write everything to .html, you can disallow *.php, but note that if you don't have a CRR for custom pages, those will be blocked.
    
    User-agent: *
    Disallow: *.js
    Disallow: /board/clientscript/
    Disallow: /board/cpstyles/
    Disallow: /board/customavatars/
    Disallow: /board/customprofilepics/
    Disallow: /board/images/
    Disallow: /board/ajax.php
    Disallow: /board/attachment.php
    Disallow: /board/calendar.php
    Disallow: /board/cron.php
    Disallow: /board/editpost.php
    Disallow: /board/global.php
    Disallow: /board/image.php
    Disallow: /board/inlinemod.php
    Disallow: /board/joinrequests.php
    Disallow: /board/login.php
    Disallow: /board/member.php
    Disallow: /board/memberlist.php
    Disallow: /board/misc.php
    Disallow: /board/moderator.php
    Disallow: /board/newattachment.php
    Disallow: /board/newreply.php
    Disallow: /board/newthread.php
    Disallow: /board/online.php
    Disallow: /board/poll.php
    Disallow: /board/postings.php
    Disallow: /board/printthread.php
    Disallow: /board/private.php
    Disallow: /board/profile.php
    Disallow: /board/register.php
    Disallow: /board/report.php
    Disallow: /board/reputation.php
    Disallow: /board/search.php
    Disallow: /board/sendmessage.php
    Disallow: /board/showgroups.php
    Disallow: /board/subscription.php
    Disallow: /board/threadrate.php
    Disallow: /board/usercp.php
    Disallow: /board/usernote.php
    
    #Finally, list the path to your sitemap:
    Sitemap: http://www.fniv.it/board/sitemap_index.xml.gz

  11. #11
    Senior Member
    Real Name
    Fabio
    Join Date
    Jul 2008
    Location
    Germany
    Posts
    758
    Liked
    11 times
    Blog Entries
    1
    Hallo,

    1. steht darüber beschrieben. Dies sind die Bots von archive.org, die deine Seite einspeichern und du später einmal deine Webseite in der Vergangenheit anschauen kannst.

    2. Crawl-delay: 60 bewirkt, dass nur alle 60 Sekunden ein Slurp (Yahoo) Bot auf deine Webseite zugreifen wird, um diese zu crawlen. Dies soll den Server schonen. Man soll dabei beachten, dass dieser Wert für eine große Webseite viel zu hoch angelegt ist.

    3. Ja.

    4. Die postings.php hat nichts mit den Foren bzw. den Themen zu tun. Dies ist eine Datei für Moderatoren und Administratoren, um verschiedene Ergeignisse an einem Thema vorzunehmen.

    5. Sie ist natürlich weitaus umfangreicher und schaden tut sie sicherlich nicht. Ich würde allerdings den Wert für die Yahoo Scrawls nicht bei 60 belassen, sondern etwas tiefer anlegen wie bei 30 oder gar ganz entfernen. Ist Ansichtssache.


    Gruß,
    Fabio

  12. #12
    Senior Member
    Real Name
    Sven
    Join Date
    Nov 2007
    Posts
    117
    Liked
    0 times
    Hier mal meine robots.txt

    Code:
    User-agent: *
    Disallow: /admincp/
    Disallow: /clientscript/
    Disallow: /cpstyles/
    Disallow: /customavatars/
    Disallow: /customprofilepics/
    Disallow: /images/
    Disallow: /modcp/
    Disallow: /ajax.php
    Disallow: /attachment.php
    Disallow: /calendar.php
    Disallow: /cron.php
    Disallow: /editpost.php
    Disallow: /global.php
    Disallow: /image.php
    Disallow: /inlinemod.php
    Disallow: /joinrequests.php
    Disallow: /login.php
    Disallow: /member.php
    Disallow: /memberlist.php
    Disallow: /misc.php
    Disallow: /moderator.php
    Disallow: /newattachment.php
    Disallow: /newreply.php
    Disallow: /newthread.php
    Disallow: /online.php
    Disallow: /poll.php
    Disallow: /postings.php
    Disallow: /printthread.php
    Disallow: /private.php
    Disallow: /profile.php
    Disallow: /register.php
    Disallow: /report.php
    Disallow: /reputation.php
    Disallow: /search.php
    Disallow: /sendmessage.php
    Disallow: /showgroups.php
    Disallow: /subscription.php
    Disallow: /threadrate.php
    Disallow: /usercp.php
    Disallow: /usernote.php
    
    Disallow: / Archiv /
    Disallow: / Sitemap /
    
    User-agent: Slurp
    Crawl-delay: 60
    
    User-agent: Teoma
    Crawl-delay: 90
    
    User-agent: stalker
    Disallow: /
    
    User-agent: SpiderJack
    Disallow: /
    
    User-agent: thesubot
    Disallow: /
    
    User-agent: thumbshots-de-bot
    Disallow: /
    
    User-agent: Jetbot/1.0
    Disallow: /
    
    User-agent: grub-client
    Disallow: /
    
    User-agent: grub
    Disallow: /
    
    User-agent: looksmart
    Disallow: /
    
    User-agent: WebZip
    Disallow: /
    
    User-agent: larbin
    Disallow: /
    
    User-agent: b2w/0.1
    Disallow: /
    
    User-agent: psbot
    Disallow: /
    
    User-agent: Python-urllib
    Disallow: /
    
    User-agent: NetMechanic
    Disallow: /
    
    User-agent: URL_Spider_Pro
    Disallow: /
    
    User-agent: CherryPicker
    Disallow: /
    
    User-agent: EmailCollector
    Disallow: /
    
    User-agent: EmailSiphon
    Disallow: /
    
    User-agent: Muscat Ferret
    Disallow: /
    
    User-agent: FAST Enterprise Crawler
    Disallow: /
    
    User-agent: WebBandit
    Disallow: /
    
    User-agent: EmailWolf
    Disallow: /
    
    User-agent: ExtractorPro
    Disallow: /
    
    User-agent: CopyRightCheck
    Disallow: /
    
    User-agent: Crescent
    Disallow: /
    
    User-agent: SiteSnagger
    Disallow: /
    
    User-agent: ProWebWalker
    Disallow: /
    
    User-agent: CheeseBot
    Disallow: /
    
    User-agent: LNSpiderguy
    Disallow: /
    
    User-agent: ia_archiver
    Disallow: /
    
    User-agent: ia_archiver/1.6
    Disallow: /
    
    User-agent: Teleport
    Disallow: /
    
    User-agent: TeleportPro
    Disallow: /
    
    User-agent: MIIxpc
    Disallow: /
    
    User-agent: Telesoft
    Disallow: /
    
    User-agent: Website Quester
    Disallow: /
    
    User-agent: moget/2.1
    Disallow: /
    
    User-agent: WebZip/4.0
    Disallow: /
    
    User-agent: WebStripper
    Disallow: /
    
    User-agent: WebSauger
    Disallow: /
    
    User-agent: WebCopier
    Disallow: /
    
    User-agent: NetAnts
    Disallow: /
    
    User-agent: Mister PiX
    Disallow: /
    
    User-agent: WebAuto
    Disallow: /
    
    User-agent: TheNomad
    Disallow: /
    
    User-agent: WWW-Collector-E
    Disallow: /
    
    User-agent: RMA
    Disallow: /
    
    User-agent: libWeb/clsHTTP
    Disallow: /
    
    User-agent: asterias
    Disallow: /
    
    User-agent: httplib
    Disallow: /
    
    User-agent: turingos
    Disallow: /
    
    User-agent: spanner
    Disallow: /
    
    User-agent: InfoNaviRobot
    Disallow: /
    
    User-agent: Harvest/1.5
    Disallow: /
    
    User-agent: Bullseye/1.0
    Disallow: /
    
    User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
    Disallow: /
    
    User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
    Disallow: /
    
    User-agent: CherryPickerSE/1.0
    Disallow: /
    
    User-agent: CherryPickerElite/1.0
    Disallow: /
    
    User-agent: WebBandit/3.50
    Disallow: /
    
    User-agent: NICErsPRO
    Disallow: /
    
    User-agent: Microsoft URL Control - 5.01.4511
    Disallow: /
    
    User-agent: DittoSpyder
    Disallow: /
    
    User-agent: Foobot
    Disallow: /
    
    User-agent: WebmasterWorldForumBot
    Disallow: /
    
    User-agent: SpankBot
    Disallow: /
    
    User-agent: BotALot
    Disallow: /
    
    User-agent: lwp-trivial/1.34
    Disallow: /
    
    User-agent: lwp-trivial
    Disallow: /
    
    User-agent: BunnySlippers
    Disallow: /
    
    User-agent: Microsoft URL Control - 6.00.8169
    Disallow: /
    
    User-agent: URLy Warning
    Disallow: /
    
    User-agent: Wget/1.6
    Disallow: /
    
    User-agent: Wget/1.5.3
    Disallow: /
    
    User-agent: Wget
    Disallow: /
    
    User-agent: LinkWalker
    Disallow: /
    
    User-agent: cosmos
    Disallow: /
    
    User-agent: moget
    Disallow: /
    
    User-agent: hloader
    Disallow: /
    
    User-agent: humanlinks
    Disallow: /
    
    User-agent: LinkextractorPro
    Disallow: /
    
    User-agent: Offline Explorer
    Disallow: /
    
    User-agent: Mata Hari
    Disallow: /
    
    User-agent: LexiBot
    Disallow: /
    
    User-agent: Web Image Collector
    Disallow: /
    
    User-agent: The Intraformant
    Disallow: /
    
    User-agent: True_Robot/1.0
    Disallow: /
    
    User-agent: True_Robot
    Disallow: /
    
    User-agent: BlowFish/1.0
    Disallow: /
    
    User-agent: JennyBot
    Disallow: /
    
    User-agent: MIIxpc/4.2
    Disallow: /
    
    User-agent: BuiltBotTough
    Disallow: /
    
    User-agent: ProPowerBot/2.14
    Disallow: /
    
    User-agent: BackDoorBot/1.0
    Disallow: /
    
    User-agent: toCrawl/UrlDispatcher
    Disallow: /
    
    User-agent: WebEnhancer
    Disallow: /
    
    User-agent: suzuran
    Disallow: /
    
    User-agent: VCI WebViewer VCI WebViewer Win32
    Disallow: /
    
    User-agent: VCI
    Disallow: /
    
    User-agent: Szukacz/1.4 
    Disallow: /
    
    User-agent: QueryN Metasearch
    Disallow: /
    
    User-agent: Openfind data gathere
    Disallow: /
    
    User-agent: Openfind 
    Disallow: /
    
    User-agent: Xenu's Link Sleuth 1.1c
    Disallow: /
    
    User-agent: Xenu's
    Disallow: /
    
    User-agent: Zeus
    Disallow: /
    
    User-agent: RepoMonkey Bait & Tackle/v1.01
    Disallow: /
    
    User-agent: RepoMonkey
    Disallow: /
    
    User-agent: Microsoft URL Control
    Disallow: /
    
    User-agent: Openbot
    Disallow: /
    
    User-agent: URL Control
    Disallow: /
    
    User-agent: Zeus Link Scout
    Disallow: /
    
    User-agent: Zeus 32297 Webster Pro V2.9 Win32
    Disallow: /
    
    User-agent: Webster Pro
    Disallow: /
    
    User-agent: EroCrawler
    Disallow: /
    
    User-agent: LinkScan/8.1a Unix
    Disallow: /
    
    User-agent: Keyword Density/0.9
    Disallow: /
    
    User-agent: Kenjin Spider
    Disallow: /
    
    User-agent: Iron33/1.0.2
    Disallow: /
    
    User-agent: Bookmark search tool
    Disallow: /
    
    User-agent: GetRight/4.2
    Disallow: /
    
    User-agent: FairAd Client
    Disallow: /
    
    User-agent: Gaisbot
    Disallow: /
    
    User-agent: Aqua_Products
    Disallow: /
    
    User-agent: Radiation Retriever 1.1
    Disallow: /
    
    User-agent: Flaming AttackBot
    Disallow: /
    
    User-agent: Oracle Ultra Search
    Disallow: /
    
    User-agent: MSIECrawler
    Disallow: /
    
    User-agent: PerMan
    Disallow: /
    
    User-agent: searchpreview
    Disallow: /
    
    User-agent: Mozilla/4.0 (compatible; Netcraft Web Server Survey)
    Disallow: /
    
    User-agent: Spinn3r 
    Disallow: /

  13. #13
    Junior Member
    Real Name
    Christian
    Join Date
    Aug 2010
    Location
    Germany
    Posts
    20
    Liked
    0 times
    Jetzt bin ich leicht überfordert

    Was ist denn jetzt aus SEO Sicht optimal?

    1. /admincp/ sollte man laut englischem vbseo.com Forum nicht sperren
    2. Was sind das alles für Bots? kenne davon nur Wget aber nicht als Bot
    3. Hier würde Disallow: /*-print/ und Disallow: /vbseocp.php fehlen ist das Absicht?

  14. #14
    Junior Member
    Real Name
    Marcel
    Join Date
    Jun 2011
    Posts
    7
    Liked
    0 times
    Ich hauch dem Thread jetzt einmal mal wieder leben ein. Ich hab hier gelesen, dass man Unterforen (die nicht zugänglich für Gäste sind) sperren soll. Ist das wirklich so? Wie müsste die Sperre für dieses Unterforum aussehen?

    insidegames - Deutschprachiges Gamerscore Erfolge Forum

  15. #15
    Senior Member
    Real Name
    Marco
    Join Date
    Feb 2006
    Posts
    561
    Liked
    2 times
    da das eine ne Datei und das andere "Ordner" sind, vermutlich
    Code:
    User-agent: *
    Disallow: /leitfaden-einreichen-f82
    Disallow: /leitfaden-einreichen-f82/
    google erkennt sowas inzwischen aber als "Soft"404

Page 1 of 2 1 2 LastLast

Similar Threads

  1. Frage zur robots.txt
    By Starli in forum Deutsch
    Replies: 2
    Last Post: 10-26-2009, 05:41 AM
  2. Replies: 6
    Last Post: 10-19-2009, 10:55 AM
  3. LinkBacks Frage
    By Elite-Janitscher in forum Deutsch
    Replies: 18
    Last Post: 09-15-2009, 05:47 PM
  4. Frage zur Robots.txt
    By dongdong in forum Deutsch
    Replies: 2
    Last Post: 01-15-2009, 07:54 AM
  5. Redirecting /forums/robots.txt to /robots.txt - Is it good?
    By MadK in forum Custom Rewrite Rules
    Replies: 6
    Last Post: 08-22-2008, 06:29 PM

Posting Permissions

  • You may not post new threads
  • You may not post replies
  • You may not post attachments
  • You may not edit your posts
  •