Není tomu tak dlouho, co jsem spustil službu GEOrss a už se moc pěkně rozjela. Zatím jsem se do toho moc neopřel, protože první týdny na ČVUT jsou náročné, ale přecijen jsem něco dodělal.

  • Místo původních defaultních napínáčků jsem použil onen známý RSS balón (ještě musím dodělat pořádný stín).
  • Kontaktoval jsem autorku původní mapy (která přidávala zdroje manuálně sama + další člověk či dva), vyexportoval lidi, kteří ještě nejsou na GEOrss a přidal je tam.
  • Pod nadpis jsem přidal počet aktuálně přidaných zdrojů. V době psaní této bleskovky je to už pěkných 115 zdrojů.
  • Chtěl jsem napsat BOTa pro stahování faviconů přidaných webů. Našel jsem moc pěkný HTML parser, který je ale moc paměťově náročný, takže jej nemůžu pouštět na serveru na internetu.
    Momentálně už BOT běží, ale není moc dokonalý. A jak jsem tak koukal na některé prasácké weby (střídání uvozovek a apostrofů, několikanásobný odkaz na faviconu-jen některý funguje, žádný odkaz na faviconu-využití defaultního serverového favicon.ico v rootu), tak dokonalý být musí. Momentálně bude vaše favicona stažena jen když bude příslušný tag ve zdroji odpovídat tomuto regulárnímu výrazu (který např. diskriminuje apostrofáře): '/<link[^>]+rel="(?:shortcut )?icon"[^>]+?href="([^"]+?)"/si'. Později ho vylepším.

S faviconama mám další plány, ale nejdřív musím udělat pořádného BOTa a taky doufat, že nenaštvu Onebit. Mám už v CRONu 4 úlohy, které se spouští každou noc a z toho dvě jsou docela náročné - stahují cizí stránky - takže běží třeba půl minuty.

3 komentáře

Neváhejte napsat k článku komentář

Nevyplňujte:

  1. 1
    Michael

    michaelf.ms<zavináč>gmailtečkacom

    Toho Youtubáře z Los Angeles sis už všimnul :)?

  2. 2
    Antonín Daněk

    danek<zavináč>antonindanektečkacz

    Mam ho smazat?

  3. 3
    MzK

    Co se týče všejakých cronů a náročnosti… není nad to mít vlastní server :)