Как парсить выдачу Гугла?
У Данте на его DanteBlog’e о ру дорах интересный материал о том как можно из выдачу Гугла напарсить всяких полезных вещей:
Все никак руки не доходили восстановить пост, сделать заново скриншоты, найти все нужные файлы. Нашел несколько копий на других блогах, но картинки тянулись с моего, поэтому тоже были недоступны.
И так для начала нам нужно определиться что мы хотим парсить. Гесты, форумы, определнные CMSки, борды и пр. У всех у них есть определенные отличительные признаки, по которым с помощью операторов Гугла можно найти их в индексе. Сегодня хочу показать вам пример парсинга сайтов на DLE.
В программе, над результатом, смотрим путь, где лежит готовый файл (не сохраняйте из окошка с результатами, они там далеко не полные! ) снова открываем его в строкоизвращателе, выбираем пункт “добавить в кажду строку” и добавляем кавычки (”) (естественно без скобок) кавычки добавятся в самый конец, тем самым делая верный запрос для парсинга. Все, у нас получилось почти 1000 поисковых запросов к Гуглу в зоне .ru, которые помогут нам отобрать максимальное количество сайтов на ДЛЕ из выдачи. По каждому запросу в выдаче от 5 до 50 сайтов, а запросов у нас 1000! Далее просто перебираем через блокнот путем замены самые популярные зоны: .com, .info, .biz, .net Лично я больше не стал брать, думаю этого хватит.
После парсинга жмем кнопку “очистить дубли” и вуаля, у нас есть достаточно приличная база сайтов на DLE Не забудьте только отпрарсить другие популярные и просто другие зоны.
Способо показан для одного движка, но так можно сделать практически с каждым, главное найти общие признаки у CMS
