VSnake notes: web crawler

2013-01-17

web crawler

Добрым человеком написан на Python паучок для обхода сайтов. Очень простой и маленький, один файл в 360 строк кода. Парсинга HTML как такового нет, добыча ссылок проводится через regexp-ы


from pholcidae import Pholcidae

class MySpider(Pholcidae):

    settings = {'domain': 'www.test.com', 'start_page': '/sitemap/'}

    def crawl(self, data):
        print(data.url)

spider = MySpider()
spider.start()

https://github.com/bbrodriges/pholcidae

http://pypi.python.org/pypi/pholcidae/

Вполне годится в качестве библиотеки для какого-либо проекта с обходом сайтов.

original post http://vasnake.blogspot.com/2013/01/web-crawler.html

Tools

VSnake notes

2013-01-17

web crawler

Комментариев нет:

Отправить комментарий

Архив блога

Ярлыки

Обо мне

Links