Ontvang nieuwsbrief:  12319 leden Zet de zoekwekker - Bookmark dit  - Contact - Wie?

100% WEB 1.0
HOOFDMENU
DATABASES:
Personenzoeker
Documentzoeker
Domeindossier
Google Tools
Linkhopper
Begluur zoekenden
NIEUWS:
Nieuws Voelspriet
Nieuws uit USA
Tijdschriftennieuws
Eerder nieuws

ZOEKTIPS:
Google Geheimen

Helpdesk zoeken
De beste zoektips
Mens en Machine

Op de zoeksofa
Waarom zoek ik?
Waarmee zoek ik?
Vriend(in) Voelspriet
Gratis nieuwsbrief
Zoekwekker
Zoeklinks
Zoekgemeenschap
LINKS:
Naakte zoekers
Geheime zoeklinks
NASLAG:
Zoekboeken
Zoekmachines
Dossier Google
Dossier AltaVista
Zoekaudio & Video
Verborgen Web
Cursussen
Onderzoeken
Zoekgeschiedenis
Terug in de tijd

Google Top 100
ZOEKVARIA:
Google Fotoalbum
Geloofwaardigheid

WEBWINKEL

 

REAGEER NU OP DIT BERICHT

Zoekmachine negeert 'privacybeschermer' robots.txt

Google erkent beveilingsfout

11 MAART 2002 De Amerikaanse zoekmachine Google geeft een beveiligingsfout toe in reactie op publicaties van de Nederlandse zoeksite Voelspriet. ,,We hebben een bug ondekt.'' Bij de indexering van pagina's is door een fout in de software van Google betaalde informatie op straat komen te liggen.

Eigenaren van websites beschermen hun privacy met behulp van het standaarddocument robots.txt. Dat bestand houdt Google buiten de deur: het geeft desgewenst de opdracht om bepaalde informatie niet op te nemen in de zoekmachine. Maar bij het indexeren van bijna vier miljoen https-pagina's (veilige pagina's) werd het bestand robots.txt door Google genegeerd. Daardoor is de privacygevoelige informatie alsnog in de index komen te staan en daarmee in het antwoordenlijstje van verbaasde internetters.

Woordvoerder Nathan Tyler van Google tegenover Voelspriet: ,,We hebben een bug in onze nieuwe technologie ontdekt. Het systeem herkende de robots.txt-bestanden niet op https-servers. We hebben de bug opgespoord en alle https-pagina's verwijderd uit de Google-index en de cache.''

Voelspriet publiceerde een onderzoek naar de indexering van ruim 3.8 miljoen 'secure pages'.  Met enige moeite bleek het mogelijk rechtstreeks toegang te krijgen tot betaalde informatie. Zo hebben gebruikers van I-Pay hun gebruikersnaam en wachtwoord in https-pagina's gezet die door Google per ongeluk toch zijn geïndexeerd. Daardoor was ondermeer betaalde software gratis te downloaden.

Google reageerde aanvankelijk niet direct op het onderzoek van Voelspriet, maar wilde eerst zelf de bevindingen nalopen. Tyler beaamt nu de conclusies van Voelspriet volledig.

De gevoelige informatie is verwijderd, maar het duurt even voordat het nieuwe systeem op orde is. Tyler: ,,De verbeterde versie van Google's webcrawler zal alle robots.txt-bestanden herkennen die zijn geassocieerd met we https-pagina's. We zullen deze binnen dertig dagen in gebruik nemen.''

De afgelopen dagen regende het echter klachten bij Google van bezorgde webmasters over de beveiligingsfout. Ze dachten met de robots.txt Google buiten de deur te kunnen houden. Google betreurt het beveiligingsincident. ,,We waren een nieuwe technologie aan het testen.'', aldus Nathan Tyler van Google. En dan kan er wel eens wat mis gaan. 
REAGEER NU OP DIT BERICHT

REACTIES VAN BEZOEKERS:
14:12 uur
Wessel Zweers, redacteur Netkwesties en freelance webbouwer, schrijft:

Een kleine aanvulling op je verder voortreffelijke nieuwsgaring:

Je schrijft: "Eigenaren van websites beschermen hun privacy met een
standaarddocument, robots.txt." Het bestand robots.txt is geen beveiligingsmiddel of privacybescherming.  Dit bestand is ooit in het leven geroepen om drukke servers te ontlasten door zoekbots meteen naar de belangrijkste pagina's van een website te dirigeren. Kortom een middel om de performance te verbeteren.

Alleen slechte webmasters (en daar zijn er kennelijk heel veel van, getuige het grote aantal privacygevoelige documenten dat Google heeft geïndexeerd)  gebruiken robots.txt ook ter beveiliging. Dat is dom, want de betreffende directories zijn ook mét een robots.txt nog steeds openbaar, alleen niet terug te vinden via een zoeksysteem dat zich aan de robots.txt-standaard houdt.

Overigens zijn er naast Google nog heel veel andere zoeksystemen die zich niet aantrekken van de robots.txt. Misschien wel aardig om dat een keer uit te zoeken?

Verder: keep up the good work.

voor experts

Voor de expert: een deel van het Engelstalige antwoord van Google, afkomstig van Nathan Tyler:

We recently read an article in your publication pointing out a concern about
Google's web crawler, and how it responds to robots.txt files that reside on
HTTPS web pages.  Below is background information about what happened and a
description of our response.

Google is currently testing a new crawling technology that will enable our
users view HTTPS pages within Google search results.  This is an important
feature, because a large number of web pages exist only on secure servers,
and cannot be found by search engines today (for example,
https://www.gotomypc.com).  In a recent test, we discovered a bug in this
new technology that prevented our crawler from recognizing robots.txt files
on HTTPS servers.  In response, Google fixed the bug and removed all HTTPS
pages from the Google index and our cache.

The improved version of Google's web crawler will recognize all robots.txt
files associated with HTTPS web pages and will be deployed in the next 30
days.


Zie ook het eerste bericht over deze kwestie.

Lees ook het interview van Voelspriet met het Duitse @-web

Zie ook Webwereld en
Nu.nl


 


BRONVERMELDING

Noot voor de media en websites. Gratis overnemen van het nieuws kan zonder toestemming vooraf. Maar noem ons wanneer U onze informatie substantieel gebruikt. Kies a.u.b. uit een van de twee omschrijvingen:
bron: www.voelspriet.nl  of zie ook: http://www.voelspriet.nl/nieuws.htm  


TIPS

Heeft U zelf tips over Nederlandse of buitenlandse zoekmachines? Stuur een tip.


KENT U ONZE NIEUWSBRIEF?

JA ik meld me aan voor de tweewekelijkse nieuwsbrief met daarin zoeknieuws, zoektips en zoekvragen met antwoorden.