Добрым человеком написан на Python паучок
для обхода сайтов. Очень простой и
маленький, один файл в 360 строк кода.
Парсинга HTML как такового нет, добыча
ссылок проводится через regexp-ы
from pholcidae import Pholcidae
class MySpider(Pholcidae):
settings = {'domain': 'www.test.com', 'start_page': '/sitemap/'}
def crawl(self, data):
print(data.url)
spider = MySpider()
spider.start()
Вполне годится в качестве
библиотеки для какого-либо проекта с
обходом сайтов.
Комментариев нет:
Отправить комментарий