Hogyan védjük meg dokumentumainkat az indexeléstől?
Gondolom már veled is előfordult, hogy kerestél valamit az interneten és akaratlanul is belefutottál PDF, vagy DOC dokumentumokba a találati listán. Sok esetben akár olyan adatokat is tartalmaznak ezek a dokumentumok, amik kényes infromációkat rögzítenek, vagy egyéb okból nem szándékoztak nyilvánosságra hozni. Általában ha egy cégnévre + pdf kifejezésre keresünk sok érdekes dolgot találhatunk. Nade, hogy lehetséges mindez? A válasz egyszerű. A Google képes minden szöveges dokumentumot megnyitni, értelmezni és bizony így indexelni is. Abban az esetben, amikor ezt szeretnénk elkerülni az alábbi 3 lehetőségünk van ezt megakadályozni.
robot.txt
User-agent: *
Disallow: /pdfs/ # Letitlja a pdfs mappa bejárását.
Disallow: *.pdf # Letiltja a pdf fájlokat. Bár nem egyezményes megoldás, ellenben a legtöbb keresőbot esetén működik.
A robot.txt-be való bejegyzés még önmagában nem fogja biztosítani, hogy ne legyen beindexelve a PDF fájlunk.
HTML
<a href="letoltheto.pdf" rel="nofollow">PDF letöltés</a>
A "rel" attribútummal megadhatjuk a keresőbotnak, hogy ne kövesse a linkben szereplő PDF fájlt. Önmagában még ez sem elegendő, hiszen a nofollow linket ettől még meg fogja nyitni, de másképp fogja súlyozni. Ennek ellenére is előfordulhat, hogy beindexelheti.
.htaccess
<FilesMatch "\.pdf$">
header set x-robots-tag: noindex
</FilesMatch>
A ".htaccess" fájlba írt kis kódrészletünk viszont határozottan jelzi egy fejléc hivatkozásban a keresőbotok és a böngészők felé, hogy ezt a tartalmat semmilyen mód nem kívánjuk indexelni.
Leírásaink azon kezdő és haladó programozóknak nyújtanak segítséget, akik már minimális szinten foglalkoztak weboldalkészítéssel. Ha szeretnél jobban elmélyülni a témában, vagy elsajátítani alapokat, még tovább fejlődni, akkor nézz körbe tanfolyam kínálatunkban, ahol a kezdőtől a profi szintig nyújtunk képzéseket a számodra.