Darmowy szablon automatyzacji

Amazon Product Search Scraper z BrightData, GPT-4 i Arkuszami Google

182
1 mies. temu
11
bloków

Automatyzacja scrapowania wyników wyszukiwania Amazon

Opis workflow

Ten szablon automatyzuje proces scrapowania stron z wynikami wyszukiwania Amazon. Pobiera surowy kod HTML, czyści go pozostawiając tylko istotne elementy produktów, a następnie wykorzystuje model językowy (LLM) do wyodrębnienia ustrukturyzowanych danych produktów (nazwa, opis, ocena, recenzje i cena). Wyniki są zapisywane w arkuszu Google Sheets.

Integracje

  • Google Sheets - dostarcza i przechowuje URL oraz wyniki
  • BrightData - pobiera kod HTML stron
  • Węzeł funkcji n8n - czyści HTML
  • LangChain (OpenRouter GPT-4) - analizuje szczegóły produktów

Przykłady zastosowań

Ta automatyzacja scrapowania wyników wyszukiwania Amazon jest idealnym rozwiązaniem dla zespołów i firm, które potrzebują monitorować listy produktów na dużą skalę:

  • Analitycy e-commerce - śledzenie cen konkurencji, ocen i trendów w dostępności produktów
  • Badacze rynku - zbieranie danych o popularności produktów i recenzjach do analiz rynkowych
  • Zespoły danych - automatyzacja pozyskiwania metadanych produktów do potoków BI lub jezior danych
  • Marketerzy afiliacyjni - utrzymywanie katalogów afiliacyjnych w aktualnym stanie z najnowszymi danymi produktów i cenami
  • Działy zakupowe - monitorowanie zmian cen i dostępności produktów u dostawców
  • Analitycy SEO - śledzenie pozycji produktów w wynikach wyszukiwania Amazon
  • Twórcy treści - automatyczne pozyskiwanie danych produktów do recenzji i porównań

Dlaczego warto użyć tego workflow

  • Kompletna automatyzacja - od listy URL do czystych danych wyjściowych JSON w Arkuszach
  • Skuteczne czyszczenie HTML - usuwa skrypty, style, niechciane tagi i szum
  • Precyzyjne parsowanie struktury - wykorzystuje GPT-4 poprzez LangChain do wiarygodnej ekstrakcji
  • Skalowalność i powtarzalność - przetwarza tysiące URL w partiach

Krok po kroku: Jak działa scrapowanie Amazon

  1. Pobieranie URL z Google Sheets - odczytuje listę URL z wynikami wyszukiwania
  2. Iteracja przez elementy - przetwarza każdy URL w kontrolowanych partiach
  3. Pobieranie surowego HTML - wykorzystuje proxy Web Unlocker BrightData do pobrania strony
  4. Czyszczenie HTML - Węzeł funkcji usuwa doctype, skrypty, style, head, komentarze, klasy i niezatwierdzone tagi, redukując nadmiarowe spacje
  5. Ekstrakcja za pomocą LLM - przekazuje oczyszczony HTML do LangChain → GPT-4 aby uzyskać JSON dla każdego produktu: nazwa, opis, ocena, recenzje, cena
  6. Zapisywanie wyników - dodaje pola JSON jako kolumny z powrotem do arkusza "wyniki" w Google Sheets

Dostosowanie do Twoich potrzeb

  • Adaptacja do innych stron - workflow można dostosować do innych sklepów e-commerce np. Walmart czy eBay
  • Zmiana listy tagów - modyfikacja tablicy allowedTags w węźle Code aby zachować dodatkowe elementy HTML
  • Zmiany schematu - aktualizacja schematu Structured Output Parser aby uwzględnić więcej pól (np. dostępność, SKU)
  • Alternatywne miejsce docelowe danych - zamiast Arkuszy, dane można przekierować do bazy danych, pliku CSV lub webhooka

Wymagania

  • Dane uwierzytelniające Google Sheets - skonfigurowane w n8n
  • Token API BrightData - przechowywany w danych uwierzytelniających n8n jako BRIGHTDATA_TOKEN
  • Klucz API OpenRouter - skonfigurowany dla węzła LangChain do wywoływania GPT-4
  • Instancja n8n - samodzielna lub w chmurze z wystarczającym limitem dla żądań HTTP i wywołań LLM

Instalacja i konfiguracja

  1. Konfiguracja danych uwierzytelniających
    • W n8n skonfiguruj OAuth Google Sheets w "Dane uwierzytelniające"
    • Dodaj token BrightData jako nowe dane uwierzytelniające HTTP Request
    • Utwórz dane uwierzytelniające klucza API OpenRouter dla węzła LangChain
  2. Import workflow
    • Skopiuj JSON workflow do okna "Import" w n8n
    • Zmapuj identyfikatory swoich Arkuszy Google do placeholderów {{WEB_SHEET_ID}}, {{TRACK_SHEET_GID}} i {{RESULTS_SHEET_GID}}
    • Upewnij się, że dane uwierzytelniające BRIGHTDATA_TOKEN są wybrane w węźle HTTP Request
  3. Testowanie i uruchamianie
    • Dodaj kilka URL wyszukiwania Amazon do swojego arkusza "track"
    • Wykonaj workflow i sprawdź czy dane produktów pojawiają się w arkuszu "results"
    • Dostosuj wielkość partii lub schemat parsera w razie potrzeby

Ważne uwagi

  • Limity API - monitoruj użycie BrightData i OpenRouter aby uniknąć ograniczeń
  • Warunki Amazon - upewnij się, że scrapowanie jest zgodne z zasadami i wymaganiami prawnymi Amazon

Podsumowanie

Ten workflow zapewnia w pełni zautomatyzowane, skalowalne rozwiązanie do ekstrakcji ustrukturyzowanych danych produktów ze stron wyników wyszukiwania Amazon bezpośrednio do Google Sheets - usprawniając analizę konkurencji i zbieranie danych.

   Skopiuj kod szablonu   
{"meta":{"instanceId":"4a11afdb3c52fd098e3eae9fad4b39fdf1bbcde142f596adda46c795e366b326"},"nodes":[{"id":"f1b36f4b-6558-4e83-a999-e6f2d24e196c","name":"OpenRouter Chat Model","type":"@n8n/n8n-nodes-langchain.lmChatOpenRouter","position":[620,240],"parameters":{"model":"openai/gpt-4.1","options":{}},"typeVersion":1},{"id":"89ca0a07-286f-4e68-9e85-0327a4859cc0","name":"Structured Output Parser","type":"@n8n/n8n-nodes-langchain.outputParserStructured","position":[900,240],"parameters":{"schemaType":"manual","inputSchema":"{n "type": "array",n "items": {n "type": "object",n "properties": {n "name": { "type": "string" },n "description": { "type": "string" },n "rating": { "type": "number" },n "reviews": { "type": "integer" },n "price": { "type": "string" }n },n "required": ["name", "description", "rating", "reviews", "price"]n }n}"},"typeVersion":1.2},{"id":"e4800c1d-c0d8-4093-81ec-fc19ad0034cd","name":"scrap url","type":"n8n-nodes-base.httpRequest","position":[240,60],"parameters":{"url":"https://api.brightdata.com/request","method":"POST","options":{},"sendBody":true,"sendHeaders":true,"bodyParameters":{"parameters":[{"name":"zone","value":"web_unlocker1"},{"name":"url","value":"={{ $json.url }}"},{"name":"format","value":"raw"}]},"headerParameters":{"parameters":[{"name":"Authorization","value":"{{BRIGHTDATA_TOKEN}}"}]}},"typeVersion":4.2},{"id":"1a1f768f-615d-4035-81b0-63b860f8e6ac","name":"Sticky Note1","type":"n8n-nodes-base.stickyNote","position":[160,-140],"parameters":{"content":"## Web Scraper APInn[Inscription - Free Trial](https://get.brightdata.com/website-scraper)"},"typeVersion":1},{"id":"2f260d96-4fff-4a4f-af29-1e43f465d54c","name":"When clicking ‘Test workflow’","type":"n8n-nodes-base.manualTrigger","position":[-440,200],"parameters":{},"typeVersion":1},{"id":"4be9033f-0b9f-466d-916e-88fbb2a80417","name":"url","type":"n8n-nodes-base.splitInBatches","position":[20,200],"parameters":{"options":{}},"typeVersion":3},{"id":"21b6d21c-b977-4175-9068-e0e2e19fa472","name":"get urls to scrape","type":"n8n-nodes-base.googleSheets","position":[-200,200],"parameters":{"options":{},"sheetName":"{{TRACK_SHEET_GID}}","documentId":"{{WEB_SHEET_ID}}"},"credentials":{"googleSheetsOAuth2Api":{"id":"KsXWRZTrfCUFrrHD","name":"Google Sheets"}},"typeVersion":4.5},{"id":"25ef76ec-cf0d-422e-b060-68c49192a008","name":"clean html","type":"n8n-nodes-base.code","position":[460,60],"parameters":{"jsCode":"// CleanHtmlFunction.jsn// Purpose: n8n Function node to clean HTML: remove doctype, scripts, styles, head, comments, classes, extra blank lines, and non-whitelisted tagsnnreturn items.map(item => {n const rawHtml = item.json.data;nn // 1) remove doctype, scripts, styles, comments and head section, and strip class attributesn let cleaned = rawHtmln .replace(//gi, '')n .replace(/ magic-wandmenu linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram