állásokat kereső robot, és weboldal fejlesztése

Közvetlen állások

Fennakadás

2010. október 12. - jobkereso

 

Az elmúlt kb 1.5 hétben fennakadás volt a crawler futtatásában, nem sikerült keresztülvergődni néhány hibán, ami a program alrendszereiben, illetve a feldolgozott adatokban egyszerre volt jelen. Most újrafuttattam a crawlert, és ehhez hozzácsaptam az előző adatbázist is, most összesen kb 5000 oldalunk van, ebből kb 2500 ami az új futtatásból származik, a másik fele pedig régi (szept. 30)

 Sajnos az ezt okozó hibát azóta sem sikerült felderíteni. Az a feltételezésem, hogy a crawler menet közben olyan linkeket talált, amelyek szűrése közben, a szűrést végző regex kifejezés elfagyott. A crawlereket a futtatást követően lényegében végtelen ciklusban találtam, le kellett őket kill-elni, linux paranccsal. Most bevezettem egy olyan szűrést, hogy a 100 karakternél hosszabb url-eket hagyja figyelmen kívül. Remélem ez nem fog a kérdéses linkek esetén sem elfagyni, merthogy ez az ellenőzés nem java kód szinten van, hanem ez is egy regex kifejezés...

Egyelőre a kisebbik rossz, hogy a hiba valószinűleg újra elő fog fordulni, a nagyobb hogy emiatt nem tudtuk az adatbázist frissíteni. Ez most megtörtént.

 

 

 

A bejegyzés trackback címe:

https://kozvetlen-allasok.blog.hu/api/trackback/id/tr857686760

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása