Python-сообщество
Я новичок в python и ни как не могу понять как реализовать следующую задачу.
Есть txt файл с доменами(около 10 000 доменов), сохранены в верхнем регистре. Нужно:
— адреса доменов перенести в нижний регистр
— добавить вначале домена строку ‘http/’, чтобы домен потом вставить в requests
— сделать цикл, чтобы парсер собрал title с каждого домена(сайта)
— записать все в файл таблицу с двумя полями | url сайта | title сайта |
Парсинг Сайта(не могу понять как правильно спарсить сгенерированную php таблицу )
Не могу понять как написать правильно.
Не могу понять как это написать правильно. Оно даже не компилируется. #include<iostream>.
WinAPI C — Не могу понять как создать таблицу?
WinAPI C — Не могу понять как создать таблицу? На днях экзамен по информатике, и не как не могу.
Не могу понять как правильно сделать объединение
Добрый день совсем недавно начал изучать join не могу сделать запрос. Сейчас я делаю запрос SELECT.
Не могу понять как правильно описать цикл
Помогите пожалуйста. Не могу понять как правильно описать цикл. С помощью метода: Найти количество.
Как спарсить со всех страниц сайта используя python
Я не особо опытна в python, поэтому если решите помочь, прошу, подробнее =) Проблема такая, хочу спарсить этот сайт https://www.mir-priaji.ru/ (у них каталог в открытом доступе есть, так что это не воровство)
По видеоурокам разобралась, написала парсер для одной страницы, а как автоматизировать процесс для всех страниц в пределах данного url? то есть там каталог не поддаётся алгоритмированию, все ссылки уникальны, неужели всё ручками вбивать нужно?
Как спарсить товары с сайта где товары подгружаются динамически?
Делаю парсер интернет магазина на python, написал скрипт который загружает ссылки на страницы с карточками товара, с основной страницы, для дальнейшего парсинга. Столкнулся с проблемой парсятся только только первый 15 ссылок, остальные которые появляются при скроллинге страницы не отображаются. Как решить эту проблему?
Решил проблему используя Selenium WebDriver
Для начала вам надо покопаться в js-файлах на том сайте и найти функцию/метод, который отвечает за загрузку товаров. Далее надо определить в этом коде к какому скрипту он обращается и какие переменные передает. Там обязательно должны быть параметры отступа (offset) или постраничной разбивки (pagination). Также может быть количество загружаемых товаров (limit). Могут быть переменные роутинга (если скрипт один на все или группу ajax-методов), типа location, section, action и т.д.
Далее сам HTML сайта вам уже не требуется. Просто обращаетесь к тому скрипту и передаете ему список переменных для выполнения запроса и получаете все в формате JSON. В подавляющем большинстве случаев (99%) никакой защиты там не стоит, но в некоторых случаях все же могут быть подводные камни, типа подписи к запросу или проверки на User Agent.
Данные можно брать через cURL или любой другой метод, который обеспечивает сетевое взаимодействие. Там надо будет выставить тип запроса GET/POST (в зависимости от того, каким способом работает скрипт), а также желательно User Agent. Если стоят количественные и частотные ограничения — регулируем частоту обращений скрипта или используем proxy.