Darmowy szablon automatyzacji

Amazon Product Search Scraper z BrightData, GPT-4 i Arkuszami Google

182

7 mies. temu

bloków

Automatyzacja scrapowania wyników wyszukiwania Amazon

Opis workflow

Ten szablon automatyzuje proces scrapowania stron z wynikami wyszukiwania Amazon. Pobiera surowy kod HTML, czyści go pozostawiając tylko istotne elementy produktów, a następnie wykorzystuje model językowy (LLM) do wyodrębnienia ustrukturyzowanych danych produktów (nazwa, opis, ocena, recenzje i cena). Wyniki są zapisywane w arkuszu Google Sheets.

Integracje

Google Sheets - dostarcza i przechowuje URL oraz wyniki
BrightData - pobiera kod HTML stron
Węzeł funkcji n8n - czyści HTML
LangChain (OpenRouter GPT-4) - analizuje szczegóły produktów

Przykłady zastosowań

Ta automatyzacja scrapowania wyników wyszukiwania Amazon jest idealnym rozwiązaniem dla zespołów i firm, które potrzebują monitorować listy produktów na dużą skalę:

Analitycy e-commerce - śledzenie cen konkurencji, ocen i trendów w dostępności produktów
Badacze rynku - zbieranie danych o popularności produktów i recenzjach do analiz rynkowych
Zespoły danych - automatyzacja pozyskiwania metadanych produktów do potoków BI lub jezior danych
Marketerzy afiliacyjni - utrzymywanie katalogów afiliacyjnych w aktualnym stanie z najnowszymi danymi produktów i cenami
Działy zakupowe - monitorowanie zmian cen i dostępności produktów u dostawców
Analitycy SEO - śledzenie pozycji produktów w wynikach wyszukiwania Amazon
Twórcy treści - automatyczne pozyskiwanie danych produktów do recenzji i porównań

Dlaczego warto użyć tego workflow

Kompletna automatyzacja - od listy URL do czystych danych wyjściowych JSON w Arkuszach
Skuteczne czyszczenie HTML - usuwa skrypty, style, niechciane tagi i szum
Precyzyjne parsowanie struktury - wykorzystuje GPT-4 poprzez LangChain do wiarygodnej ekstrakcji
Skalowalność i powtarzalność - przetwarza tysiące URL w partiach

Krok po kroku: Jak działa scrapowanie Amazon

Pobieranie URL z Google Sheets - odczytuje listę URL z wynikami wyszukiwania
Iteracja przez elementy - przetwarza każdy URL w kontrolowanych partiach
Pobieranie surowego HTML - wykorzystuje proxy Web Unlocker BrightData do pobrania strony
Czyszczenie HTML - Węzeł funkcji usuwa doctype, skrypty, style, head, komentarze, klasy i niezatwierdzone tagi, redukując nadmiarowe spacje
Ekstrakcja za pomocą LLM - przekazuje oczyszczony HTML do LangChain → GPT-4 aby uzyskać JSON dla każdego produktu: nazwa, opis, ocena, recenzje, cena
Zapisywanie wyników - dodaje pola JSON jako kolumny z powrotem do arkusza "wyniki" w Google Sheets

Dostosowanie do Twoich potrzeb

Adaptacja do innych stron - workflow można dostosować do innych sklepów e-commerce np. Walmart czy eBay
Zmiana listy tagów - modyfikacja tablicy allowedTags w węźle Code aby zachować dodatkowe elementy HTML
Zmiany schematu - aktualizacja schematu Structured Output Parser aby uwzględnić więcej pól (np. dostępność, SKU)
Alternatywne miejsce docelowe danych - zamiast Arkuszy, dane można przekierować do bazy danych, pliku CSV lub webhooka

Wymagania

Dane uwierzytelniające Google Sheets - skonfigurowane w n8n
Token API BrightData - przechowywany w danych uwierzytelniających n8n jako BRIGHTDATA_TOKEN
Klucz API OpenRouter - skonfigurowany dla węzła LangChain do wywoływania GPT-4
Instancja n8n - samodzielna lub w chmurze z wystarczającym limitem dla żądań HTTP i wywołań LLM

Instalacja i konfiguracja

Konfiguracja danych uwierzytelniających
- W n8n skonfiguruj OAuth Google Sheets w "Dane uwierzytelniające"
- Dodaj token BrightData jako nowe dane uwierzytelniające HTTP Request
- Utwórz dane uwierzytelniające klucza API OpenRouter dla węzła LangChain
Import workflow
- Skopiuj JSON workflow do okna "Import" w n8n
- Zmapuj identyfikatory swoich Arkuszy Google do placeholderów {{WEB_SHEET_ID}}, {{TRACK_SHEET_GID}} i {{RESULTS_SHEET_GID}}
- Upewnij się, że dane uwierzytelniające BRIGHTDATA_TOKEN są wybrane w węźle HTTP Request
Testowanie i uruchamianie
- Dodaj kilka URL wyszukiwania Amazon do swojego arkusza "track"
- Wykonaj workflow i sprawdź czy dane produktów pojawiają się w arkuszu "results"
- Dostosuj wielkość partii lub schemat parsera w razie potrzeby

Ważne uwagi

Limity API - monitoruj użycie BrightData i OpenRouter aby uniknąć ograniczeń
Warunki Amazon - upewnij się, że scrapowanie jest zgodne z zasadami i wymaganiami prawnymi Amazon

Podsumowanie

Ten workflow zapewnia w pełni zautomatyzowane, skalowalne rozwiązanie do ekstrakcji ustrukturyzowanych danych produktów ze stron wyników wyszukiwania Amazon bezpośrednio do Google Sheets - usprawniając analizę konkurencji i zbieranie danych.

Inne możliwości automatyzacji

Zautomatyzuj ankiety CSAT za pomocą Freshdesk i przechowuj odpowiedzi w Arkuszach Google

Zarządzanie Kalendarzem Google z uwzględnieniem kontekstu przy użyciu protokołu MCP

Przepływ pracy eksportu wiadomości e-mail z Gmaila do Dysku Google

Dynamiczny router modelu AI do optymalizacji zapytań z OpenRouter

Posty na LinkedIn generowane przez AI z OpenAI, Arkuszami Google i przepływem pracy zatwierdzania wiadomości e-mail

Generuj faktury, zapisuj na dysku i wysyłaj e-maile do klientów za pomocą JS + G Sheets

Generuj artykuły bazy wiedzy za pomocą GPT i Perplexity AI dla Contentful CMS

Wyodrębnij i zapisz dane faktur z Dysku Google do Arkuszy za pomocą Dumpling AI

Wyślij motywujące cytaty do Slacka

Spersonalizowany biuletyn technologii AI wykorzystujący RSS, OpenAI i Gmail

Generator obrazów AI z tekstu zbudowany na fal.ai

GPT-4o – Dumpling AI i agent LangChain - GPT-4o – Dumpling AI i agent LangChain

1 2 3 … 30 Następne »

Skopiuj kod szablonu

{"meta":{"instanceId":"4a11afdb3c52fd098e3eae9fad4b39fdf1bbcde142f596adda46c795e366b326"},"nodes":[{"id":"f1b36f4b-6558-4e83-a999-e6f2d24e196c","name":"OpenRouter Chat Model","type":"@n8n/n8n-nodes-langchain.lmChatOpenRouter","position":[620,240],"parameters":{"model":"openai/gpt-4.1","options":{}},"typeVersion":1},{"id":"89ca0a07-286f-4e68-9e85-0327a4859cc0","name":"Structured Output Parser","type":"@n8n/n8n-nodes-langchain.outputParserStructured","position":[900,240],"parameters":{"schemaType":"manual","inputSchema":"{n "type": "array",n "items": {n "type": "object",n "properties": {n "name": { "type": "string" },n "description": { "type": "string" },n "rating": { "type": "number" },n "reviews": { "type": "integer" },n "price": { "type": "string" }n },n "required": ["name", "description", "rating", "reviews", "price"]n }n}"},"typeVersion":1.2},{"id":"e4800c1d-c0d8-4093-81ec-fc19ad0034cd","name":"scrap url","type":"n8n-nodes-base.httpRequest","position":[240,60],"parameters":{"url":"https://api.brightdata.com/request","method":"POST","options":{},"sendBody":true,"sendHeaders":true,"bodyParameters":{"parameters":[{"name":"zone","value":"web_unlocker1"},{"name":"url","value":"={{ $json.url }}"},{"name":"format","value":"raw"}]},"headerParameters":{"parameters":[{"name":"Authorization","value":"{{BRIGHTDATA_TOKEN}}"}]}},"typeVersion":4.2},{"id":"1a1f768f-615d-4035-81b0-63b860f8e6ac","name":"Sticky Note1","type":"n8n-nodes-base.stickyNote","position":[160,-140],"parameters":{"content":"## Web Scraper APInn[Inscription - Free Trial](https://get.brightdata.com/website-scraper)"},"typeVersion":1},{"id":"2f260d96-4fff-4a4f-af29-1e43f465d54c","name":"When clicking ‘Test workflow’","type":"n8n-nodes-base.manualTrigger","position":[-440,200],"parameters":{},"typeVersion":1},{"id":"4be9033f-0b9f-466d-916e-88fbb2a80417","name":"url","type":"n8n-nodes-base.splitInBatches","position":[20,200],"parameters":{"options":{}},"typeVersion":3},{"id":"21b6d21c-b977-4175-9068-e0e2e19fa472","name":"get urls to scrape","type":"n8n-nodes-base.googleSheets","position":[-200,200],"parameters":{"options":{},"sheetName":"{{TRACK_SHEET_GID}}","documentId":"{{WEB_SHEET_ID}}"},"credentials":{"googleSheetsOAuth2Api":{"id":"KsXWRZTrfCUFrrHD","name":"Google Sheets"}},"typeVersion":4.5},{"id":"25ef76ec-cf0d-422e-b060-68c49192a008","name":"clean html","type":"n8n-nodes-base.code","position":[460,60],"parameters":{"jsCode":"// CleanHtmlFunction.jsn// Purpose: n8n Function node to clean HTML: remove doctype, scripts, styles, head, comments, classes, extra blank lines, and non-whitelisted tagsnnreturn items.map(item => {n const rawHtml = item.json.data;nn // 1) remove doctype, scripts, styles, comments and head section, and strip class attributesn let cleaned = rawHtmln .replace(//gi, '')n .replace(/