InternetZe světa IT

Jak pracuje SeznamBot 3.0

Třetí generace SeznamBota už se intenzivně testuje, chcete vědět, co je uvnitř?

Nový robot dostal do vínku současnou ostrou databázi, kterou už 2 měsíce občerstvuje, donedávna ji však dále nerozšiřoval. Od minulého týdne si sám hledá i nové dokumenty, vybírá ty, které se mu zdají zajímavé. Z nacrawlovaných dat vyrábí hledací databázi a výsledky již interně srovnáváme se současným hledáním.

A nyní nahlédneme trochu pod pokličku… Robot je založen na technologiích z projektu Hadoop, především na souborovém systému HDFS, frameworku pro distribuované výpočty Map/Reduce a NoSQL úložišti HBase. Hadoop technologii jsme zvolili po průzkumu dostupných možností, zásadními faktory byl otevřený kód, výborná škálovatelnost a samozřejmě výkon. Jako každá nová technologie, i tahle má ještě své mouchy a tak vyladění stability a výkonu námi napsaných aplikací se ukázalo jako nejvíc problematické.

Nový robot má databázi stránek včetně historie stahování, obsahu stránky, textového derivátu stránky (informace, které robot dokázal z kódu stránky extrahovat), různých hodnocení a zpětných odkazů uloženou v HBase. Z této databáze můžeme kdykoli bez nutnosti opětovného stahování stránek vyrobit binární hledací podobu používanou na výdejových strojích, pochopitelně také můžeme nad uloženými daty provádět různé analýzy a statistické výpočty. K tomu se využívá právě Map/Reduce framework. Zjednodušené schéma najdete na obrázku.

Robot se nyní bude hlásit jako SeznamBot3.0-beta. Zajímá nás zpětná vazba od Vás, pokud se Vám bude zdát, že nový robot nestahuje Váš web správně, neváhejte nám to dát vědět na fulltext-robot@firma.seznam.cz. Upozorňuji, že činnost robota je čitelná pouze z access logu, ostré hledání je stále občerstvováno starým robotem, návštěvy nového robota s ním nijak nesouvisí.

Buďte prosím co nejvíc konkrétní, zajímá nás o jakou stránku se jedná, případně pokud můžete, připojte access logy s přístupem SeznamBota. Přidávací formulář aktuálně není na nového robota napojený, upravíme to do konce týdne.

MŮŽE SE VÁM TAKÉ LÍBIT ▼

2 Comments

  1. V celku zajímavé, snad se ve vyhledávání na Seznamu budu cítit lépe. Zdá se, že 3.0 už snad něco předvede.

  2. Tak nějak se mi to začíná líbit, lidičky už lezou na web, takže čekam až vše doindexuje a rozjedem to na max. Uvidíme co pavouk umí… 🙂

Komentuj ▼

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Více článků ► Internet