Automatyzacja scrapowania wyników wyszukiwania Amazon
Opis workflow
Ten szablon automatyzuje proces scrapowania stron z wynikami wyszukiwania Amazon. Pobiera surowy kod HTML, czyści go pozostawiając tylko istotne elementy produktów, a następnie wykorzystuje model językowy (LLM) do wyodrębnienia ustrukturyzowanych danych produktów (nazwa, opis, ocena, recenzje i cena). Wyniki są zapisywane w arkuszu Google Sheets.
Integracje
- Google Sheets - dostarcza i przechowuje URL oraz wyniki
- BrightData - pobiera kod HTML stron
- Węzeł funkcji n8n - czyści HTML
- LangChain (OpenRouter GPT-4) - analizuje szczegóły produktów
Przykłady zastosowań
Ta automatyzacja scrapowania wyników wyszukiwania Amazon jest idealnym rozwiązaniem dla zespołów i firm, które potrzebują monitorować listy produktów na dużą skalę:
- Analitycy e-commerce - śledzenie cen konkurencji, ocen i trendów w dostępności produktów
- Badacze rynku - zbieranie danych o popularności produktów i recenzjach do analiz rynkowych
- Zespoły danych - automatyzacja pozyskiwania metadanych produktów do potoków BI lub jezior danych
- Marketerzy afiliacyjni - utrzymywanie katalogów afiliacyjnych w aktualnym stanie z najnowszymi danymi produktów i cenami
- Działy zakupowe - monitorowanie zmian cen i dostępności produktów u dostawców
- Analitycy SEO - śledzenie pozycji produktów w wynikach wyszukiwania Amazon
- Twórcy treści - automatyczne pozyskiwanie danych produktów do recenzji i porównań
Dlaczego warto użyć tego workflow
- Kompletna automatyzacja - od listy URL do czystych danych wyjściowych JSON w Arkuszach
- Skuteczne czyszczenie HTML - usuwa skrypty, style, niechciane tagi i szum
- Precyzyjne parsowanie struktury - wykorzystuje GPT-4 poprzez LangChain do wiarygodnej ekstrakcji
- Skalowalność i powtarzalność - przetwarza tysiące URL w partiach
Krok po kroku: Jak działa scrapowanie Amazon
- Pobieranie URL z Google Sheets - odczytuje listę URL z wynikami wyszukiwania
- Iteracja przez elementy - przetwarza każdy URL w kontrolowanych partiach
- Pobieranie surowego HTML - wykorzystuje proxy Web Unlocker BrightData do pobrania strony
- Czyszczenie HTML - Węzeł funkcji usuwa doctype, skrypty, style, head, komentarze, klasy i niezatwierdzone tagi, redukując nadmiarowe spacje
- Ekstrakcja za pomocą LLM - przekazuje oczyszczony HTML do LangChain → GPT-4 aby uzyskać JSON dla każdego produktu: nazwa, opis, ocena, recenzje, cena
- Zapisywanie wyników - dodaje pola JSON jako kolumny z powrotem do arkusza "wyniki" w Google Sheets
Dostosowanie do Twoich potrzeb
- Adaptacja do innych stron - workflow można dostosować do innych sklepów e-commerce np. Walmart czy eBay
- Zmiana listy tagów - modyfikacja tablicy allowedTags w węźle Code aby zachować dodatkowe elementy HTML
- Zmiany schematu - aktualizacja schematu Structured Output Parser aby uwzględnić więcej pól (np. dostępność, SKU)
- Alternatywne miejsce docelowe danych - zamiast Arkuszy, dane można przekierować do bazy danych, pliku CSV lub webhooka
Wymagania
- Dane uwierzytelniające Google Sheets - skonfigurowane w n8n
- Token API BrightData - przechowywany w danych uwierzytelniających n8n jako BRIGHTDATA_TOKEN
- Klucz API OpenRouter - skonfigurowany dla węzła LangChain do wywoływania GPT-4
- Instancja n8n - samodzielna lub w chmurze z wystarczającym limitem dla żądań HTTP i wywołań LLM
Instalacja i konfiguracja
- Konfiguracja danych uwierzytelniających
- W n8n skonfiguruj OAuth Google Sheets w "Dane uwierzytelniające"
- Dodaj token BrightData jako nowe dane uwierzytelniające HTTP Request
- Utwórz dane uwierzytelniające klucza API OpenRouter dla węzła LangChain
- Import workflow
- Skopiuj JSON workflow do okna "Import" w n8n
- Zmapuj identyfikatory swoich Arkuszy Google do placeholderów {{WEB_SHEET_ID}}, {{TRACK_SHEET_GID}} i {{RESULTS_SHEET_GID}}
- Upewnij się, że dane uwierzytelniające BRIGHTDATA_TOKEN są wybrane w węźle HTTP Request
- Testowanie i uruchamianie
- Dodaj kilka URL wyszukiwania Amazon do swojego arkusza "track"
- Wykonaj workflow i sprawdź czy dane produktów pojawiają się w arkuszu "results"
- Dostosuj wielkość partii lub schemat parsera w razie potrzeby
Ważne uwagi
- Limity API - monitoruj użycie BrightData i OpenRouter aby uniknąć ograniczeń
- Warunki Amazon - upewnij się, że scrapowanie jest zgodne z zasadami i wymaganiami prawnymi Amazon
Podsumowanie
Ten workflow zapewnia w pełni zautomatyzowane, skalowalne rozwiązanie do ekstrakcji ustrukturyzowanych danych produktów ze stron wyników wyszukiwania Amazon bezpośrednio do Google Sheets - usprawniając analizę konkurencji i zbieranie danych.