Az elmúlt kb 1.5 hétben fennakadás volt a crawler futtatásában, nem sikerült keresztülvergődni néhány hibán, ami a program alrendszereiben, illetve a feldolgozott adatokban egyszerre volt jelen. Most újrafuttattam a crawlert, és ehhez hozzácsaptam az előző adatbázist is, most összesen kb 5000 oldalunk van, ebből kb 2500 ami az új futtatásból származik, a másik fele pedig régi (szept. 30)
Sajnos az ezt okozó hibát azóta sem sikerült felderíteni. Az a feltételezésem, hogy a crawler menet közben olyan linkeket talált, amelyek szűrése közben, a szűrést végző regex kifejezés elfagyott. A crawlereket a futtatást követően lényegében végtelen ciklusban találtam, le kellett őket kill-elni, linux paranccsal. Most bevezettem egy olyan szűrést, hogy a 100 karakternél hosszabb url-eket hagyja figyelmen kívül. Remélem ez nem fog a kérdéses linkek esetén sem elfagyni, merthogy ez az ellenőzés nem java kód szinten van, hanem ez is egy regex kifejezés...
Egyelőre a kisebbik rossz, hogy a hiba valószinűleg újra elő fog fordulni, a nagyobb hogy emiatt nem tudtuk az adatbázist frissíteni. Ez most megtörtént.