Fennakadás

2010. október 12. - jobkereso

Az elmúlt kb 1.5 hétben fennakadás volt a crawler futtatásában, nem sikerült keresztülvergődni néhány hibán, ami a program alrendszereiben, illetve a feldolgozott adatokban egyszerre volt jelen. Most újrafuttattam a crawlert, és ehhez hozzácsaptam az előző adatbázist is, most összesen kb 5000 oldalunk van, ebből kb 2500 ami az új futtatásból származik, a másik fele pedig régi (szept. 30)

Sajnos az ezt okozó hibát azóta sem sikerült felderíteni. Az a feltételezésem, hogy a crawler menet közben olyan linkeket talált, amelyek szűrése közben, a szűrést végző regex kifejezés elfagyott. A crawlereket a futtatást követően lényegében végtelen ciklusban találtam, le kellett őket kill-elni, linux paranccsal. Most bevezettem egy olyan szűrést, hogy a 100 karakternél hosszabb url-eket hagyja figyelmen kívül. Remélem ez nem fog a kérdéses linkek esetén sem elfagyni, merthogy ez az ellenőzés nem java kód szinten van, hanem ez is egy regex kifejezés...

Egyelőre a kisebbik rossz, hogy a hiba valószinűleg újra elő fog fordulni, a nagyobb hogy emiatt nem tudtuk az adatbázist frissíteni. Ez most megtörtént.

Szólj hozzá!

állásokat kereső robot, és weboldal fejlesztése

Közvetlen állások

Fennakadás

A bejegyzés trackback címe:

Kommentek:

állásokat kereső robot, és weboldal fejlesztése

Fennakadás

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: