1) Google Chrome + ChromeDriver (Selenium)
Instale o Google Chrome e baixe o ChromeDriver compatível com a versão do seu Chrome:
Windows: extraia o arquivo e coloque o executável em C:\chromedriver\chromedriver.exe (este é o caminho esperado pelos scripts).
macOS/Linux: coloque em /usr/local/bin/chromedriver ou outro diretório do PATH. Se preferir, ajuste o caminho no código.
Onde seu código espera o driver:
- Web-Holandês (Touros):
C:\chromedriver\chromedriver.exe no Windows; /usr/local/bin/chromedriver no macOS/Linux.
- Genealogia usa o Selenium e cria o
Service com C:\chromedriver\chromedriver.exe (Windows).
- Macro ABCZ – Etapas usa
webdriver_manager para baixar/gerenciar automaticamente (não precisa do caminho fixo).
2) Tesseract OCR
Necessário para o Extrator PDF → Excel (Motilidade). O caminho do executável está configurado assim no seu código:
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
Windows:
- Instalador recomendado: Tesseract (UB-Mannheim)
- Depois de instalar, confirme se o executável está em
C:\Program Files\Tesseract-OCR\tesseract.exe (ou ajuste o caminho no código).
macOS:
- Com Homebrew:
brew install tesseract
- O executável geralmente fica em
/opt/homebrew/bin/tesseract (Apple Silicon) ou /usr/local/bin/tesseract. Ajuste o caminho no seu script se necessário.
Linux (Debian/Ubuntu):
sudo apt-get update && sudo apt-get install -y tesseract-ocr
- Executável costuma estar em
/usr/bin/tesseract. Ajuste no código se não estiver no PATH.
Idiomas do OCR: seu extrator usa lang="por+eng". Se o idioma português não vier por padrão, instale o pacote de idiomas (ex.: tesseract-ocr-por no Ubuntu).
3) Pacotes Python (pip)
Alguns bots precisam de bibliotecas específicas:
pip install selenium webdriver-manager pytesseract pdfplumber pymupdf pandas openpyxl pillow requests twocaptcha
- Extrator PDF → Excel:
pdfplumber, PyMuPDF (fitz), pytesseract, pillow, pandas, openpyxl.
- Web-Holandês / Genealogia / Macro ABCZ:
selenium (+ Chrome/ChromeDriver); a Macro ABCZ usa webdriver-manager.
- Genealogia: usa
twocaptcha (é preciso chave válida da API).
4) Resumo – caminhos usados no seu código
web_holandes_scraper.py: driver em C:\chromedriver\chromedriver.exe (Win) ou /usr/local/bin/chromedriver (Unix).
genealogia.py: driver em C:\chromedriver\chromedriver.exe (Win).
macro_abcz_etapas.py: usa webdriver_manager (dispensa caminho fixo).
extrator_semen_pdf.py: Tesseract em C:\Program Files\Tesseract-OCR\tesseract.exe (ajuste conforme o SO).
Dica: se preferir não mexer no PATH, você pode alterar os caminhos diretamente nos scripts citados acima.