Форум SoftWeb.ru

Форум SoftWeb.ru (https://softweb.ru/index.php)
-   Языки программирования (https://softweb.ru/forumdisplay.php?f=261)
-   -   перебор страниц сайта с сохранением (https://softweb.ru/showthread.php?t=42347)

sergeforever 27.10.2015 14:46

перебор страниц сайта с сохранением
 
Господа,
подскажите плиз в общих чертах, на чем можно реализовать и через что запустить следующий механизм. А дальше я сам попробую)

1. открыть страничку xxx.com/1
2. если она существует (не 404), то сохранить текст страницы (или mht какой-нибудь, а лучше, конечно, сразу в лог перечнем существующих и несуществующих)
3. открыть страничку xxx.com/2 (+1 то есть)
4. гоу ту 2

финальный адрес будет где-то в районе xxx.com/70000

Rushked 24.11.2017 07:44

Re: перебор страниц сайта с сохранением
 
PHP код:

    $domain 'http://xxx.com';
    
$savedir 'site';
    if (!
file_exists($savedir)) {
        
mkdir($savedir);
    }
    for (
$i 1$i <= 70000$i++) {
        
$headers get_headers($domain '/' $i);
        if (
$headers && strpos($headers[0], '404') === false) {
            
$html file_get_contents($domain '/' $i);
            
file_put_contents($savedir '/' $i '.html'$html);
        }
    } 



Часовой пояс GMT +3, время: 17:10.

Работает на vBulletin® версия 3.8.12 by vBS.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot