V roce 2016 Google zpracoval 3,2 bilionu vyhledávacích dotazů, přesto výsledky, které poskytl vyhledávač, představovaly pouze zlomek dostupného obsahu online. Velká část informací dostupných online není přístupná vyhledávacími stroji, takže k nalezení těchto skrytých stránek musíte použít speciální nástroje nebo sami prozkoumat webové stránky. Tato skrytá informace, známá jako hluboký web, představuje až 5 000krát to, co je k dispozici při použití obvyklých vyhledávacích technik.
Typy skrytého obsahu
Skryté stránky webových stránek spadají do kategorií, které popisují, proč jsou pro vyhledávače neviditelné.
Některé představují dynamický obsah, který se zobrazuje pouze v případě, že návštěvník vydá konkrétní požadavek na webu, který k prezentaci cílených výsledků používá kód založený na databázi. Například tyto stránky mohou zahrnovat výsledky nakupování na základě konkrétních kombinací kritérií produktu. Vyhledávače nejsou určeny ke sledování a ukládání informací uložených v těchto databázích. Chcete-li tyto stránky najít, musíte jít na web a vyhledat konkrétní informace, které hledáte, nebo použít databázově orientovanou vyhledávací službu, jako je Bright Planet.
Některé stránky nemají odkazy, které by je spojovaly s prohledávatelnými zdroji. Do této kategorie mohou spadat dočasné zdroje, například několik verzí webů ve vývoji, stejně jako špatně navržené weby. Například pokud někdo vytvořil webovou stránku a nahrál ji na server webu, ale nepřidal na ni odkaz na aktuální stránky webu, nikdo by nevěděl, že tam byla, včetně vyhledávačů.
Stále více stránek vyžaduje pro zobrazení nebo přístup k nim přihlašovací údaje, například weby s předplatným. Weboví designéři označují stránky a části webů jako neomezené pro vyhledávače, čímž je účinně vylučují, aby byly nalezeny konvenčními prostředky. Chcete-li získat přístup k těmto stránkám, musíte si nejprve vytvořit účet, než vám bude udělen přístup k nim.
Používání souborů Robots.txt
Vyhledávače procházejí stránky na webu a indexují jeho obsah, aby se mohl zobrazovat jako odpověď na dotazy. Pokud vlastník webu chce z těchto indexovacích postupů vyloučit některé části své domény, přidá adresy těchto adresářů nebo stránek do speciálního textového souboru s názvem robots.txt uloženého v kořenovém adresáři svého webu. Protože většina webů obsahuje soubor robotů bez ohledu na to, zda do něj přidávají nějaké výjimky, můžete k zobrazení jeho obsahu použít předvídatelný název dokumentu.
Pokud do řádku umístění prohlížeče zadáte „[název domény] /robots.txt“ bez uvozovek a nahradíte „[název domény]“ adresou webu, obsah souboru robotů se často zobrazí v okně prohlížeče po stisknete klávesu „Enter“. Položky označené „disallow“ nebo „nofollow“ představují části webu, které zůstávají nepřístupné prostřednictvím vyhledávače.
Hackování webových stránek udělejte si sami
Kromě souborů robot.txt můžete často najít jinak skrytý obsah zadáním webových adres pro konkrétní stránky a složky ve webovém prohlížeči. Pokud jste se například dívali na web umělce a všimli jste si, že každá stránka používala stejnou konvenci pojmenování - jako gallery1.html, gallery2.html, gallery4.html -, můžete najít skrytou galerii zadáním stránky „ gallery3.html. " ve webovém prohlížeči.
Podobně, pokud zjistíte, že web používá složky k uspořádání stránek - například example.com/content/page1.html, přičemž složkou „/ content“ je - pak můžete zobrazit samotnou složku zadáním webu a složky , bez stránky, například „example.com/obsah/“ ve vašem webovém prohlížeči. Pokud přístup ke složce nebyl zakázán, můžete procházet stránky, které obsahuje, a také stránky ve všech podsložkách, abyste našli skrytý obsah.