Вопрос или проблема
Моя работа использует собственную базу данных с адресами и другой личной информацией. В моей роли у меня есть доступ только к версии в формате HTML.
Мне часто нужно составлять письма на основе этой информации, но в настоящее время от меня ожидается, что я буду вручную копировать информацию.
Информация, которая мне нужна, разбросана по нескольким страницам, но, к счастью, URL-адреса специфичны для страниц, а не для записи, то есть я имею дело с одними и теми же примерно пятью URL-адресами для каждой записи.
Я уверен, что можно использовать инструмент для парсинга, чтобы выполнить эту задачу в несколько кликов. Что бы порекомендовали, чтобы не требовалась установка на рабочую машину (хотя расширения для браузера приемлемы)?
Если вы можете запускать программное обеспечение с USB-накопителя, посмотрите WinPython.
- Бесплатно, бесплатно и с открытым исходным кодом (лицензия MIT)
- Windows 64 или 32 бита
- безвредно: WinPython полностью находится в своей собственной директории, без установки в ОС
- настраиваемо: добавьте недостающие пакеты,
- создайте свою собственную версию: вам доступен набор winpython-creator
- Работает из коробки(*) на любом Windows 8+ с 2 ГБ ОЗУ (для Jupyter Notebook потребуется современный браузер)
- Requests включен во все, кроме Zero-издания, так что ваша работа с веб-запросами обеспечена
- Если добавить scrapy, можно написать пауков для веб-скрейпинга.
- Вы можете начать с Zero-издания (<28 МБ для загрузки, 100 МБ установлено на USB-ключе) и добавить requests или использовать одно из полнофункциональных изданий (431-450 МБ для загрузки, 2,7 ГБ установлено на USB-ключе).
.
Ответ или решение
Ваша работа связана с использованием HTML-версии пользовательской базы данных, содержащей адреса и другую личную информацию. В настоящий момент вы вручную копируете информацию для создания писем, что является времязатратным процессом. Поскольку информация распределена по нескольким страницам с фиксированными URL-адресами, вы можете использовать инструмент для веб-скрейпинга, который требует минимальной установки на рабочем компьютере, например, в виде расширения для браузера.
Рекомендации по выбору инструментов для веб-скрейпинга без установки:
-
Расширения для браузеров:
- Web Scraper: Это расширение доступно для Chrome и Firefox, и оно позволяет извлекать данные из HTML-страниц, управляя этим процессом через удобный интерфейс. Настройка скрапера достаточно проста, а результаты могут быть экспортированы в форматах CSV и JSON.
- DataMiner: Это возможность скрейпинга непосредственно из вашего браузера, поддерживающая XPath и селекторы CSS для извлечения данных. Удобно в использовании и предоставляет возможность конвертации в различные форматы.
-
Использование портативного программного обеспечения:
- WinPython: Если у вас есть возможность запустить программное обеспечение с USB-накопителя, то WinPython станет отличным решением. Эта платформа полностью автономная, не требует установки и включает в себя пакет
requests
для HTTP-запросов. Вы можете добавитьscrapy
для более сложного скрейпинга.
- WinPython: Если у вас есть возможность запустить программное обеспечение с USB-накопителя, то WinPython станет отличным решением. Эта платформа полностью автономная, не требует установки и включает в себя пакет
Выгоды использования:
- Эффективность: Использование автоматизированных инструментов для скрейпинга значительно уменьшает время, затрачиваемое на сбор информации, устраняя необходимость ручного ввода.
- Гибкость: Расширения и портативные решения обеспечивают гибкость, так как они могут быть изменены или расширены в зависимости от меняющихся требований.
- Минимизация установки: Разрешает избегать установки программного обеспечения на рабочую машину, если это запрещено политикой компании.
- Безопасность: Использование проверенных источников и инструментов, таких как официальные расширения для браузеров, уменьшает риск утечки данных и других угроз безопасности.
Благодаря этим решениям вы сможете эффективно и быстро справляться с задачами создания писем, без необходимости вмешательства в систему работы вашего компьютера. Надеюсь, эти рекомендации помогут вам в повышении производительности работы.