GrabLab.org

 У меня возникла следующая проблема, нужно работать с прокси-серверами, требущими авторизацию, но нужный софт (selenium) умеет работать только с прокси-серверам без авторизации. На помощь приходит squid. Можно настроить squid так, что он будет слушать на нескольких портах, причём запросы каждого порта он будет перенаправлять, на закреплённый за ним прокси-сервер. Т.е. используя locahost:9000 мы будем работать с прокси-сервером A, а через порт :9001 мы будем работать с прокси-сервером B.

Далее вы можете ознакомиться с конфигом. Я привожу полный конфиг т.е. вы можете сохранить его в /etc/squid/squid.conf вместо старого конфига и всё будет работать.

 

Сегодня у хорошего человека kalombo нашлось время, чтобы попробовать собрать библиотеку pycurl под виндой, и - о чудо - в самосборной версии пропал баг, суть которого проявлялась в попадании мусора  в POST-запросы. На этот баг жаловались различные пользователи системы windows.

Итак, если у вас уже стоит pycurl, скачанный откуда-либо, удаляйте его через панель управления. Далее скачивайте http://grablib.org/static/pycurl-ssl-7.19.0.win32-py2.7.msi и устанавливайте.

 

Специально для пользователей keydb.ru базы, я написал простую программу на языке python, которая позволяет извлекать строки, соотвествующие заданному регулярному выражению. Удобство утилиты состоит в том, что для её работы нужен лишь только интерпретатор языка python.

Далее я расскажу, как установить утилиту в системе windows:

Мы ежемесячно парсим базу поисковых запросов, которую можно купить всего за 50 баксов. На данный момент в базе 233 миллиона ключевых  слов, размер файла составляет 12 гигабайт. У покупателей возникает вопрос: как сделать выборку по интересующему запросу из такого большого файла? Рассмотрим решения для двух популярных операционных систем: linx и windows.

Добавили блог

12 апреля, 2012

Решили добавить блог, где будетм публиковать статьи и варианты решений встающих перед нами задач.


Контактные данные

Email лаборатории
brobiz.inc@gmail.com
Alex
skype: etiquette_team
icq: 466204552

Стоимость услуг

Парсинг данных от 200$
Мы запускаем скрипт на своих серверах. Вы получаете только данные в удобном для вас формате.