Samenvatting
Uit onderzoek blijkt dat voornamelijk gemeenten rond de Veluwe zoekmachines blokkeren via het robots.txt
-bestand. Hierdoor hebben burgers rond de Veluwe minder mogelijkheden om overheidsinformatie zoals over bezwaarprocedures of lokale projecten te vinden dan burgers elders in Nederland. Over het algemeen echter blokkeren Nederlandse overheden de toegang voor zoekmachines niet.
Daarnaast hebben keuzes van gemeenten in het algemeen en toeleveranciers een directe impact op de transparantie en digitale toegankelijkheid van de overheid. Vooral de implementaties van raadsinformatiesystemen van Notubiz, iBabs en het CMS-platform TYPO3 wijken nog steeds af van de industriestandaarden voor goede vindbaarheid.
Achtergrond
De werkmaatschappij Invantive is bestuurder van een stichting die het algemeen nut nastreeft als deel van haar MVO-activiteiten.
Tijdens een van de activiteiten viel op dat de gemeentes Harderwijk en Ermelo delen van hun websites afschermen van indexering van zoekmachines. Het gaat daarbij om onderwerpen zoals de bezwaarschriftencommissie, omgevingswet, specifieke projecten zoals tiny houses, Harderweide, vluchtelingenopvang en het dossier Tomassen (Duck-to).
Het is voor burgers belangrijk om relevante informatie via de populaire zoekmachines zoals Google en Bing te kunnen vinden. Sommige burgers en groeperingen werken ook met automatische updates via bijvoorbeeld Google Alerts zodat men automatisch nieuwe zoekresultaten per e-mail ontvangt.
De informatie is wel vindbaar indien de URL bekend is of voor zover bekend ook via de eigen gemeentelijke zoekmachine die de desbetreffende gemeentes op hun website aanbieden. Deze zoekmachines bleken in een eerder onderzoek veelal van bedenkelijke kwaliteit.
Dit riep de vraag op in hoeverre sprake is van openbaarmaking van informatie via websites van overheden in Nederland, en wel meer specifiek of en hoe verschillende bestuursorganen zoeken buiten eigen zoekmachines om via robots.txt blokkeren en of er trends hierin te vinden zijn.
Er is geen onderzoek gedaan naar andere mechanismes om indexering door zoekmachines van overheidsinformatie te beperken, zoals het gebruik van noindex
hints.
Dit onderzoek sluit aan bij een eerder onderzoek naar raadsinformatiesystemen van enkele jaren geleden, waarbij bleek dat zoekmachines de documenten gepubliceerd via de meeste raadsinformatiesystemen niet kunnen indexeren en burgers gedwongen zijn om elke paar weken opnieuw via de daartoe beschikbaar gestelde (slechte) zoekmachines te zoeken indien men op de hoogte wil blijven.
De uitkomsten van dit onderzoek, gedaan op 4 april 2025, zijn hieronder te vinden.
Robots.txt
Hoe werkt robots.txt
?
De gedetailleerde uitleg van robots.txt
is te vinden in RFC9309. Het protocol is oorspronkelijk gedefinieerd in 1994.
Het robots.txt
-bestand vertelt zoekmachines welke delen van een website ze wel of niet mogen bekijken. Volgens RFC 9309 gebruiken zoekmachines een speciaal bestand om automatisch toegang te regelen, bijvoorbeeld om privacy te beschermen of onnodige belasting van de server te voorkomen. Het bestand staat meestal op de hoofdpagina van een website (bijvoorbeeld voorbeeld.nl/robots.txt) en bevat simpele regels zoals “sta toe” of “blokkeer deze pagina’s”. Zoekmachines volgen deze regels vrijwillig; het is geen harde beveiliging.
De regels kunnen generiek gelden of alleen voor specifieke zoekmachines. Instructies voor zoekmachines worden opgegeven via User-Agent
zoals: User-Agent: *
voor alle zoekmachines.
Enkele specifieke regels zijn:
Disallow:
(zonder slash of pad): er wordt niets uitgesloten.Disallow: /
: blokkeert de gehele site
Voorbeeld robots.txt
Stel de inhoud van robots.txt
is:
User-agent: *
Allow: /
Disallow: /over-de-gemeente/welkom-nieuwe-collega
Disallow: /ontmoet-je-collegas/expeditiemagazine
Dit betekent dat de inhoud van de gehele site doorzocht en beschikbaar gemaakt voor alle zoekmachines. Enkel alle URL’s die met een van de volgende twee paden bevatten dienen niet geindexeerd en dus verborgen te blijven voor gebruikers van zoekmachines:
/over-de-gemeente/welkom-nieuwe-collega
/ontmoet-je-collegas/expeditiemagazine
Illustratie aan de hand van triggers
Startpunt van dit onderzoek waren de gemeentes Harderwijk en Ermelo.
Voor de gemeente Ermelo geldt bijvoorbeeld:
User-agent: *
Allow: /
Disallow: /over-de-gemeente/welkom-nieuwe-collega
...
Disallow: /ontmoet-je-collegas/mensen-blij-maken-vind-ik-het-mooiste-wat-er-is
Disallow: /gemeentebestuur/college-van-burgemeester-en-wethouders/portefeuilleverdeling
Disallow: /ermelo-helpt/veelgestelde-vragen-en-antwoorden-opvang-vluchtelingen
Disallow: /ermelo-helpt/voorkeurslocatie-kleinschalige-opvang-buitenbrinkweg
Disallow: /ermelo-helpt/noodopvang-hotel-de-heerlickheijd
...
Disallow: /ermelo-in-ontwikkeling/ruiming-van-algemene-graven/veelgestelde-vragen-over-ruiming-van-algemene-graven
Disallow: /ermelo-in-ontwikkeling/ermelo-zuid-west/veelgestelde-vragen-over-ermelo-zuid-west
Disallow: /ermelo-in-ontwikkeling/dossier-tomassen/bestaande-vergunningen-en-meldingen-tomassen
Disallow: /ermelo-in-ontwikkeling/dossier-tomassen/raadstafels-en-vergaderingen-omtrent-tomassen
Hieraan is te zien dat webpagina’s over de portefeuilleverdeling, vluchtelingenopvang en het dossier Tomassen / Duck-to voor zoekmachines verborgen dienen te blijven.
Voor de gemeente Harderwijk zijn de instellingen:
User-agent: *
Allow: /
Disallow: /meldingen-klachten-en-bezwaar
Disallow: /over-de-gemeente/welkom-nieuwe-collega
...
Disallow: /instagram/huisregels-social-media
Disallow: /openbare-orde-en-veiligheid/veiligheidsplan
Disallow: /openbare-orde-en-veiligheid/wat-kunt-u-doen
...
Disallow: /over-de-gemeente/projecten-in-harderwijk/omgevingswet/overgangsperiode-aanvragen-tot-1-januari-2024
Disallow: /over-de-gemeente/projecten-in-harderwijk/tiny-houses-drielanden/stand-van-zaken-en-planning
Disallow: /over-de-gemeente/projecten-in-harderwijk/harderweide/laatste-nieuws
Disallow: /over-de-gemeente/projecten-in-harderwijk/harderweide/crescent-park
waaraan te zien is dat de huisregels voor social media via zoekmachines verborgen moeten blijven, evenals de agenda en procedures voor meldingen, klachten en bezwaar, maar ook nieuwe collega’s of projecten zoals Harderweide.
Als voorbeeld van een gemeente die een meer burgergerichte aanpak hanteert is Elburg, die wat technische pagina’s (herkenbaar aan de extensie jsp
) en de eigen zoekresultaten uitsluit:
crawl-delay: 10
User-agent: *
Disallow: /Zoekresultaten
Disallow: /searchresults.jsp
Disallow: /passport.jsp
Disallow: /sitemap.jsp
Disallow: /searchresults.jsp
Disallow: /rss.jsp
Disallow: /login.jsp
Disallow: /reacton.jsp
Disallow: /pip.jsp
Disallow: /newsletters_standalone.jsp
Disallow: /newsletters.jsp
Disallow: /newsletter.jsp
Disallow: /cvdr.jsp
Disallow: /errorcode.jsp
Disallow: /digidlogin.jsp
Disallow: /digiderror.jsp
Sitemap: https://www.elburg.nl/sitemap.xml
Bevindingen
Op basis van de navolgende analyse zijn de volgende bevindingen genoteerd.
Bevinding 1: Notubiz, TYPO3 en iBabs stellen teleur qua RFC 9309-ondersteuning
De ondersteuning voor robots.txt
is ondanks de leeftijd van de standaard teleurstellend. Van de 2528 technisch bereikbare websites geven er 1447 een bruikbaar antwoord in lijn met de standaard. Maar liefst 1081 websites (43%) geven een antwoord in strijd met de standaard.
Van de 1081 websites vormen Notubiz, TYPO3 en iBabs een groot percentage (438 websites, weer 41%). De implementaties van Notubiz, TYPO3 en iBabs laten kansen liggen om burgers informatie te laten verkrijgen omdat W3C-standaarden niet juist zijn geïmplementeerd.
Meer dan de helft van de websites die nog online zijn maar niet via Google vindbaar zouden door deze drie alsnog door zoekmachines beter opgepikt worden. De concurrent “Go” en haar gebruikers laten zien dat anders kan.
De keuze van raadsinformatiesysteem en/of implementatie heeft rechtstreeks invloed op de democratische informatievoorziening.
Een grote stap vooruit binnen Nederland zou gemaakt zijn indien Notubiz, TYPO3 en iBabs de ondersteuning voor robots.txt verbeteren en de gebruikers dit juist implementeren.
Bevinding 2: uitsluitingen woo bij kvk.nl en ede.nl
Er zijn maar weinig blokkades gevonden rondom de woo. Enkel de Kamer van Koophandel en de gemeente Ede hebben bewust paden geblokkeerd die waarschijnlijk betrekking hebben op de wet open overheid.
Bevinding 3: Uitsluitingen vrijwel uitsluitend rond Veluwe, Meerinzicht goed voor 56% blokkades
Goed nieuws is dat blokkades via robots.txt
ongebruikelijk zijn. Het CBS heeft als groter orgaan een groot aantal blokkades, maar voor het overige zijn het overwegend gemeentes die burgers de toegang ontzeggen via zoekmachines. Aflopend gesorteerd op het aantal blokkades zijn dat:
Gemeente | #Aantal | Percentage |
---|---|---|
harderwijk.nl | 34 | 26% |
ermelo.nl | 30 | 23% |
zeist.nl | 24 | 18% |
meerinzicht.nl | 9 | 7% |
katwijk.nl | 8 | 6% |
barneveld.nl | 5 | 4% |
wijkbijduurstede.nl | 5 | 4% |
castricum.nl | 4 | 3% |
veenendaal.nl | 4 | 3% |
bloemendaal.nl | 3 | 2% |
ede.nl | 2 | 2% |
eijsden-margraten.nl | 2 | 2% |
Totaal | 130 | 100% |
Hierbij valt op dat ruim de helft (56%) van de blokkaderegels onder gemeentes zitten bij een deel van de gemeentes die deelnemen aan de gemeenschappelijke regeling Meerinzicht (Noord-West Veluwe).
Al met al lijkt sprake van een losse draad op landelijk niveau. Vrijwel alle gemeentes hebben de toegang voor zoekmachines goed georganiseerd.
Indien de gemeentes Harderwijk, Ermelo en Meerinzicht binnen hun samenwerkingsverband de werking verbeteren zal dit de vindbaarheid voor de burgers in de regio op hetzelfde niveau brengen als het landelijk gemiddelde.
Een verbetering door Zeist en de overige gemeentes rond de Veluwe zou nog eens 30% minder blokkaderegels kunnen betekenen.
Het blokkeren van websites voor opname in zoekmachines lijkt zich qua gemeentes sterk te concentreren rond de Veluwe: 87% van alle blokkaderegels is afkomstig van gemeentes in of rond de Veluwe. Enkel Katwijk, Castricum, Bloemendaal en Eijsden-Margraten liggen elders in Nederland, zoals zichtbaar in deze visualisatie:
Het valt ook op dat ook de twee blokkades waarschijnlijk voor de woo zich bevinden rond de Veluwe: Apeldoorn en Ede.
Voornaamste leerpunt is:
De sterke concentratie geeft aan dat de toegang tot lokale overheidsinformatie afhankelijk is van de regio waarin de burger woont. Dit werkt tegen het principe van gelijke behandeling van burgers.
Analyse
Beperking
De basis van de analyse is een lijst van websites samengesteld voor Open Archivaris. Deze lijst is tenminste twee jaar niet meer bijgewerkt. Nieuwe websites zullen hierin niet opgenomen zijn, terwijl reeds verdwenen websites er wel in staan. Dit geeft de kans om ook een analyse te doen naar de vluchtigheid.
Een actuele lijst van websites zal bij het Ministerie van Algemene Zaken eenvoudig opgevraagd kunnen worden via een Woo-verzoek aangezien de Nederlandse overheden hierbij gefaciliteerd worden met Matomo voor analytische gegevens (voorheen Piwik).
Lijst Websites
De volgende query stelt een lijst samen van 3301 overheidswebsites in Nederland op basis van een stamtabel van https://openarchivaris.nl:
create or replace table Websites@InMemoryStorage
as
select ste.crawl_type
, ste.owner_coc_number
, ste.owner_name
, ste.pty_uid
, ste.url
, pty.rsin_number
, pty.osf_system_id
, pty.ictu_code
, pty.cbs_code
, pty.municipality
, pty.legal_form
, pty.form
from oa_sites ste
join oa_parties pty
on pty.uid = ste.pty_uid
Robots.txt bestanden
Met de volgende query wordt van alle websites de robots.txt
opgehaald en vastgelegd in een tabel. Dit duurt circa 25 minuten bij de eerste uitvoering:
create or replace table t5389_WebsiteRobotsTxt@oa
as
select htp.url
, htp.returned_url
, htp.CONTENTS_CHAR
, htp.MIME_TYPE
, htp.HTTP_STATUS_CODE
, htp.DATE_RETRIEVAL_UTC
, htp.RETRIEVAL_DURATION_MS
, htp.BYTES_RETRIEVED
, htp.RETRIEVAL_SUCCESSFUL
, htp.LAST_MODIFIED
, htp.ETAG
, htp.CONTENT_DISPOSITION
, htp.CACHE_CONTROL
, htp.EXPIRES
, htp.ERROR_MESSAGE_CODE
, htp.ERROR_MESSAGE_TEXT
, htp.USER_AGENT
, htp.RESPONSE_HEADER_CONTENT_LENGTH
, htp.RESPONSE_HEADER_CONTENT_LANGUAGE
, htp.RESPONSE_HEADER_CONTENT_SECURITY_POLICY
, htp.RESPONSE_HEADER_DATE
, htp.RESPONSE_HEADER_CONNECTION
, htp.RESPONSE_HEADER_KEEP_ALIVE
, htp.RESPONSE_HEADER_SERVER
, htp.RESPONSE_HEADER_STRICT_TRANSPORT_SECURITY
, htp.RESPONSE_HEADER_TRANSFER_ENCODING
, htp.RESPONSE_HEADER_X_CONTENT_TYPE_OPTIONS
, htp.RESPONSE_HEADER_X_FRAME_OPTIONS
, htp.RESPONSE_HEADER_X_POWERED_BY
, htp.RESPONSE_HEADER_X_ASPNET_VERSION
, htp.RESPONSE_HEADER_X_ROBOTS_TAG
, htp.RESPONSE_HEADER_X_XSS_PROTECTION
, htp.RESPONSE_HEADER_REFERRER_POLICY
, htp.RESPONSE_HEADER_PERMISSIONS_POLICY
, htp.RESPONSE_HEADER_X_ASPNET_MVC_VERSION
, htp.RESPONSE_HEADER_X_CACHE
, htp.RESPONSE_HEADER_EXPECT_CT
, htp.RESPONSE_HEADER_FEATURE_POLICY
, htp.CERTIFICATE_SUBJECT
, htp.CERTIFICATE_DATE_NOT_AFTER
, htp.CERTIFICATE_DATE_NOT_BEFORE
, htp.CERTIFICATE_SIGNATURE_ALGORITHM
, htp.CERTIFICATE_ISSUER
, htp.CERTIFICATE_SERIAL_NUMBER
, htp.HOST_ON_HSTS_PRELOAD_LIST
, wse.* except rowid$
from WEBSITES@InMemoryStorage wse
join HTTPDOWNLOAD@DataDictionary
( url => url || '/robots.txt'
, diskCache => true
, diskCacheMaxAgeSec => 86400
, ignoreWebError => true
) htp
Uitval
Van de 3.301 websites lukt het voor 1.469 websites niet om de robots.txt
op te vragen:
- van 653 websites kan de domeinnaam niet meer omgezet worden in een IP-adres (zoals
https://agressievrijwerk.nl
). - van 73 websites kan geen HTTPS-verbinding opgebouwd worden zoals
https://haaren.nl
. - van 47 websites kan geen verbinding gemaakt worden met de externe server zoals
https://rorportaal.nl
. - 244 websites betreffen actieve Notubiz websites voor raadsinformatie. Notubiz ondersteunt de
robots.txt
RFC 9309 niet zoalshttps://zuid-holland.raadsinformatie.nl
. Het is vrij uitzonderlijk dat deze websites zich niet houden aan de RFC’s, maar dat kan een keuze zijn. - 157 websites betreffen iBabs websites voor raadsinformatie. Ook dezen lijken RFC 3909 niet te ondersteunen zoals
https://ris2.ibabs.eu/leiden
. - 37 websites zijn op basis van TYPO3 en ondersteunen eveneens geen RFC 9309, zoals
https://hilvarenbeek.nl
. - 152 websites zijn gebaseerd op andere technologie, maar ondersteunen ook geen RFC 3909 zoals
https://ckmbo.nl
. - 2 websites zijn gebaseerd op Go voor Raadsinformatie, maar bestaan niet meer of (tijdelijk) niet meer zoals
https://raadleiderdorp.nl
. - 12 websites zijn deelmappen van
https://w-o-o.nl
en bevatten terecht geen robots.txt. - 1 website geeft een Unauthorized maar biedt wel de juiste data (
https://drechtsteden.nl/robots.txt
). - 2 websites met Yoast geven een HTTP 404 Not Found, maar bieden wel de juiste data, zoals bijvoorbeeld
https://bsgr.nl/robots.txt
. - 19 websites geven een HTTP 403 Forbidden zoals
https://mirtnowa.nl/robots.txt
. - 25 websites geven anderszins een HTTP 404 zoals
https://kbvg.nl/robots.txt
. - 38 websites geven een redirect die niet automatisch gevolgd werd, maar in de browser wel werken zoals
https://ijsselstein.nl/robots.txt
. - 7 websites hebben verschillende oorzaken.
Restant
De resterende websites met robots.txt ondersteuning zijn 29 websites met “Go” en 1802 algemene websites.
Hiervan zijn er 338 websites die wel een antwoord geven op een verzoek voor robots.txt
, maar een HTML-pagina teruggeven, zoals bijvoorbeeld https://geldersarchief.nl
.
Van de resterende 1.493 websites geven 46 een leeg bestand als antwoord. Een zinvolle inhoud is te vinden op 1.447 websites. Verdeeld naar soort overheid:
Aantal | Soort |
---|---|
273 | Onbekend |
38 | Gemeenschappelijke Regeling |
330 | Gemeente |
15 | GGD |
728 | Ministerie |
12 | Omgevingsdienst |
18 | Provincie |
15 | Veiligheidsregio |
18 | Waterschap |
Beoordeling
Een tabel met beoordeelbare robots.txt
is samengesteld met:
create or replace table RobotsTxt@InMemoryStorage
as
select t.url
, t.form
, t.contents_char
from t5389_WebsiteRobotsTxt@oa t
where retrieval_successful = true
and coalesce(contents_char, '#') not like '%<!DOC%'
and coalesce(contents_char, '#') not like '%<!doc%'
and contents_char is not null
Vanaf de 1.447 gevonden robots.txt
bevatten er 961 een regel met de sitemap. 138 van de robots.txt
-bestanden zijn gebaseerd Yoast cq beginnen mt # START YOAST BLOCK
. Vier lijken gebaseerd op iWink CMS.
Zeer incidenteel zijn ook interne notities terug te vinden zoals:
# Vraag van Anna-Mari sept 2019: Geen beelden van Hanneke in Google
# Vraag van Tamara maart 2024, geen beelden van staf in Google
# Vraag van Tamara januari 2025, geen foto van Esther
Veel Verschillende User-Agents
Specifieke instructies zijn voorhanden voor 866 verschillende User-Agent
s, waarvan 831 verschillende overblijven na toepassing hoofdletteronafhankelijk via de volgende query:
select txt
, count(*)
from ( select lower(trim(replace(txt, 'User-Agent:', '', 'User-agent', '', ':', ''))) txt
from RobotsTxt@InMemoryStorage rts
join csvtable
( passing contents_char
column delimiter chr(11)
columns txt varchar2
) csv
where csv.txt not like 'Sitemap:%'
and coalesce(csv.txt, '#') not like '#%'
and lower(csv.txt) like 'user-agent:%'
)
group
by txt
Het gemiddeld aantal gebruikte User-Agent
s per vorm overheidsorgaan is:
Vorm | Gemiddeld Aantal |
---|---|
Veiligheidsregio | 1 |
Omgevingsdienst | 1,8 |
Onbekend | 2,0 |
GGD | 2,8 |
Ministerie | 2,9 |
Gemeente | 5,2 |
Waterschap | 5,4 |
Provincie | 42,1 |
Gemeenschappelijke Regeling | 61,4 |
Blijkbaar gebruiken vooral de GRs en provincies relatief veel applicaties met veel standaardlogica voor crawlers of veel instelmogelijkheden.
Blokkeren Pagina’s
Met de volgende query is het volume teruggebracht naar 734 blokkaderegels die mogelijk een patroon hebben waarbij voor burgers relevante informatie verborgen kan blijven van zoekmachines:
SQL statement
select form, url, txt
from RobotsTxt@InMemoryStorage rts
join csvtable
( passing contents_char
column delimiter chr(11)
columns txt varchar2
) csv
where coalesce(csv.txt, '#') not like '#%'
and csv.txt not like '<b%'
and csv.txt not like '~%'
and lower(csv.txt) not like 'allow /%'
and lower(csv.txt) not like 'allow%'
and lower(csv.txt) not like 'crawl-delay:%'
and lower(csv.txt) not like 'disallow:%&%'
and lower(csv.txt) not like 'disallow:%.asp$%'
and lower(csv.txt) not like 'disallow:%.css$%'
and lower(csv.txt) not like 'disallow:%.env'
and lower(csv.txt) not like 'disallow:%.inc$%'
and lower(csv.txt) not like 'disallow:%.jpg$%'
and lower(csv.txt) not like 'disallow:%.js$%'
and lower(csv.txt) not like 'disallow:%.php$%'
and lower(csv.txt) not like 'disallow:%.png$%'
and lower(csv.txt) not like 'disallow:%/404%'
and lower(csv.txt) not like 'disallow:%/admin%'
and lower(csv.txt) not like 'disallow:%/admin%'
and lower(csv.txt) not like 'disallow:%/ajax%'
and lower(csv.txt) not like 'disallow:%/app_%'
and lower(csv.txt) not like 'disallow:%/aspx%'
and lower(csv.txt) not like 'disallow:%/aspx'
and lower(csv.txt) not like 'disallow:%/bin%'
and lower(csv.txt) not like 'disallow:%/component%'
and lower(csv.txt) not like 'disallow:%/compose%'
and lower(csv.txt) not like 'disallow:%/config%'
and lower(csv.txt) not like 'disallow:%/controls%'
and lower(csv.txt) not like 'disallow:%/core%'
and lower(csv.txt) not like 'disallow:%/cron%'
and lower(csv.txt) not like 'disallow:%/css%'
and lower(csv.txt) not like 'disallow:%/desktopmodules%'
and lower(csv.txt) not like 'disallow:%/documentation/%'
and lower(csv.txt) not like 'disallow:%/error%'
and lower(csv.txt) not like 'disallow:%/httpmodules%'
and lower(csv.txt) not like 'disallow:%/images%'
and lower(csv.txt) not like 'disallow:%/install%'
and lower(csv.txt) not like 'disallow:%/js%'
and lower(csv.txt) not like 'disallow:%/language%'
and lower(csv.txt) not like 'disallow:%/login%'
and lower(csv.txt) not like 'disallow:%/portals%'
and lower(csv.txt) not like 'disallow:%/profile%'
and lower(csv.txt) not like 'disallow:%/providers%'
and lower(csv.txt) not like 'disallow:%/readme.md'
and lower(csv.txt) not like 'disallow:%/readme.txt'
and lower(csv.txt) not like 'disallow:%/resources%'
and lower(csv.txt) not like 'disallow:%/tag%'
and lower(csv.txt) not like 'disallow:%/themes%'
and lower(csv.txt) not like 'disallow:%/tools%'
and lower(csv.txt) not like 'disallow:%/typo3%'
and lower(csv.txt) not like 'disallow:%/user%'
and lower(csv.txt) not like 'disallow:%/vendor%'
and lower(csv.txt) not like 'disallow:%/web-inf%'
and lower(csv.txt) not like 'disallow:%/wp-includes%'
and lower(csv.txt) not like 'disallow:%403%'
and lower(csv.txt) not like 'disallow:%?%'
and lower(csv.txt) not like 'disallow:%_vti_bin%'
and lower(csv.txt) not like 'disallow:%aanmeld%mislukt%'
and lower(csv.txt) not like 'disallow:%aanmeldbevestiging%'
and lower(csv.txt) not like 'disallow:%account%'
and lower(csv.txt) not like 'disallow:%admin%'
and lower(csv.txt) not like 'disallow:%afdrukken%'
and lower(csv.txt) not like 'disallow:%agenda/maand%'
and lower(csv.txt) not like 'disallow:%agenda/month%'
and lower(csv.txt) not like 'disallow:%api%'
and lower(csv.txt) not like 'disallow:%aspx%'
and lower(csv.txt) not like 'disallow:%auth%'
and lower(csv.txt) not like 'disallow:%beheer%'
and lower(csv.txt) not like 'disallow:%cache%'
and lower(csv.txt) not like 'disallow:%cgi-bin%'
and lower(csv.txt) not like 'disallow:%changelog.txt'
and lower(csv.txt) not like 'disallow:%cli%'
and lower(csv.txt) not like 'disallow:%collega%'
and lower(csv.txt) not like 'disallow:%config'
and lower(csv.txt) not like 'disallow:%cpresources%'
and lower(csv.txt) not like 'disallow:%css'
and lower(csv.txt) not like 'disallow:%ctl%'
and lower(csv.txt) not like 'disallow:%dashadmin%'
and lower(csv.txt) not like 'disallow:%email%'
and lower(csv.txt) not like 'disallow:%export=pdf%'
and lower(csv.txt) not like 'disallow:%exportxlsx%'
and lower(csv.txt) not like 'disallow:%filter%'
and lower(csv.txt) not like 'disallow:%fonts%'
and lower(csv.txt) not like 'disallow:%form%'
and lower(csv.txt) not like 'disallow:%formbuilder%'
and lower(csv.txt) not like 'disallow:%gif'
and lower(csv.txt) not like 'disallow:%handlers%'
and lower(csv.txt) not like 'disallow:%hubspot%'
and lower(csv.txt) not like 'disallow:%includes%'
and lower(csv.txt) not like 'disallow:%inloggen%'
and lower(csv.txt) not like 'disallow:%jpeg'
and lower(csv.txt) not like 'disallow:%jpg'
and lower(csv.txt) not like 'disallow:%js'
and lower(csv.txt) not like 'disallow:%jsp'
and lower(csv.txt) not like 'disallow:%layout=print'
and lower(csv.txt) not like 'disallow:%layouts%'
and lower(csv.txt) not like 'disallow:%libraries%'
and lower(csv.txt) not like 'disallow:%libs%'
and lower(csv.txt) not like 'disallow:%license.txt'
and lower(csv.txt) not like 'disallow:%logout%'
and lower(csv.txt) not like 'disallow:%logs%'
and lower(csv.txt) not like 'disallow:%mailings%'
and lower(csv.txt) not like 'disallow:%maintainers.txt'
and lower(csv.txt) not like 'disallow:%media%'
and lower(csv.txt) not like 'disallow:%mobile%'
and lower(csv.txt) not like 'disallow:%modules%'
and lower(csv.txt) not like 'disallow:%monitoring%'
and lower(csv.txt) not like 'disallow:%munin*%'
and lower(csv.txt) not like 'disallow:%niet-gevonden%'
and lower(csv.txt) not like 'disallow:%nieuwe-inwoners%'
and lower(csv.txt) not like 'disallow:%node%'
and lower(csv.txt) not like 'disallow:%odata%'
and lower(csv.txt) not like 'disallow:%odata%'
and lower(csv.txt) not like 'disallow:%old%'
and lower(csv.txt) not like 'disallow:%pdf=true%'
and lower(csv.txt) not like 'disallow:%personas%'
and lower(csv.txt) not like 'disallow:%php'
and lower(csv.txt) not like 'disallow:%plugins%'
and lower(csv.txt) not like 'disallow:%png'
and lower(csv.txt) not like 'disallow:%print%'
and lower(csv.txt) not like 'disallow:%reageer%'
and lower(csv.txt) not like 'disallow:%reeds%aangemeld%'
and lower(csv.txt) not like 'disallow:%renderaspdf%'
and lower(csv.txt) not like 'disallow:%reply%'
and lower(csv.txt) not like 'disallow:%rest%'
and lower(csv.txt) not like 'disallow:%rss%'
and lower(csv.txt) not like 'disallow:%scripts%'
and lower(csv.txt) not like 'disallow:%search%'
and lower(csv.txt) not like 'disallow:%session%'
and lower(csv.txt) not like 'disallow:%shortcuts%'
and lower(csv.txt) not like 'disallow:%sitecore%'
and lower(csv.txt) not like 'disallow:%sitemap%'
and lower(csv.txt) not like 'disallow:%sql%'
and lower(csv.txt) not like 'disallow:%sso%'
and lower(csv.txt) not like 'disallow:%statline%'
and lower(csv.txt) not like 'disallow:%style%'
and lower(csv.txt) not like 'disallow:%svg'
and lower(csv.txt) not like 'disallow:%system%'
and lower(csv.txt) not like 'disallow:%tag%'
and lower(csv.txt) not like 'disallow:%test%'
and lower(csv.txt) not like 'disallow:%theme%'
and lower(csv.txt) not like 'disallow:%tips%'
and lower(csv.txt) not like 'disallow:%tmp%'
and lower(csv.txt) not like 'disallow:%umbraco%'
and lower(csv.txt) not like 'disallow:%unsubscribe%'
and lower(csv.txt) not like 'disallow:%upgrade.txt'
and lower(csv.txt) not like 'disallow:%uploads%'
and lower(csv.txt) not like 'disallow:%wp-admin%'
and lower(csv.txt) not like 'disallow:%wp-json%'
and lower(csv.txt) not like 'disallow:%xml%'
and lower(csv.txt) not like 'disallow:%xpsimage%'
and lower(csv.txt) not like 'disallow:%zoek%'
and lower(csv.txt) not like 'geen toegang%'
and lower(csv.txt) not like 'ongeldig%'
and lower(csv.txt) not like 'request-rate:%'
and lower(csv.txt) not like 'rss:%'
and lower(csv.txt) not like 'sitemap:%'
and lower(csv.txt) not like 'user-agent:__%'
and lower(csv.txt) not like 'visit-time:%'
and trim(lower(csv.txt)) != 'disallow: /'
and trim(lower(csv.txt)) != 'disallow:'
De resulterende regels zijn handmatig verder onderzocht en worden per groep van websites hieronder opgegeven.
De onderstaande tabel toont de aantallen bijzonderheden, waarbij geen weging heeft plaatsgevonden qua impact:
Vorm | Website | #Bijzonderheden | #Woo |
---|---|---|---|
Gemeenschappelijke regeling | omnibuzz.nl | 7 | 0 |
Gemeente | barneveld.nl | 5 | 0 |
Gemeente | bloemendaal.nl | 3 | 0 |
Gemeente | castricum.nl | 4 | 0 |
Gemeente | ede.nl | 2 | 1 |
Gemeente | eijsden-margraten.nl | 2 | 0 |
Gemeente | ermelo.nl | 30 | 0 |
Gemeente | harderwijk.nl | 34 | 0 |
Gemeente | katwijk.nl | 8 | 0 |
Gemeente | meerinzicht.nl | 9 | 0 |
Gemeente | veenendaal.nl | 4 | 0 |
Gemeente | wijkbijduurstede.nl | 5 | 0 |
Gemeente | zeist.nl | 24 | 0 |
Ministerie | gezondheidsraad.nl | 1 | 0 |
Ministerie | nationaalcoordinatorgroningen.nl | 5 | 0 |
Ministerie | politie.nl | 12 | 0 |
Onbekend | actiemonitoringce.nl en efeat.org | 1 | 0 |
Onbekend | cbs.nl | 97 | 0 |
Onbekend | kvk.nl | 2 | 2 |
Veiligheidsregio | vru.nl | 11 | 0 |