Darmowy szablon automatyzacji

Przekształć dowolną stronę internetową w ustrukturyzowane dane JSON za pomocą ScrapeNinja i AI

12263
27 dni temu
6
bloków


Przykłady zastosowań

Ten szablon automatyzacji jest szczególnie przydatny w sytuacjach, gdy wymagane jest regularne pozyskiwanie danych ze stron internetowych, których struktura może ulegać zmianom. Oto kilka potencjalnych zastosowań:

  • Śledzenie zmian cen produktów w sklepach internetowych
  • Pobieranie danych kontaktowych z witryn firmowych
  • Monitorowanie dostępności produktów na stronach e-commerce
  • Ekstrakcja danych o nieruchomościach z portali ogłoszeniowych
  • Pobieranie informacji o kursach walut lub notowaniach giełdowych
  • Automatyzacja gromadzenia danych z forów internetowych
  • Monitorowanie zmian w treści stron rządowych lub informacyjnych

Jak to działa

Ten workflow wykorzystuje węzeł społecznościowy ScrapeNinja dla n8n do:

  • Pobrania kodu HTML strony internetowej
  • Przesłania go do modelu językowego (Google Gemini) z prośbą o wygenerowanie kodu funkcji ekstrahującej dane w JS
  • Wykonania wygenerowanego kodu JS na pobranym HTML w bezpiecznym środowisku sandbox

Dzięki temu podejściu workflow może automatycznie dostosowywać się do zmian w strukturze strony, minimalizując potrzebę ręcznej interwencji.

Instalacja

Aby zainstalować węzeł ScrapeNinja w swojej samodzielnie hostowanej instancji n8n:

  1. Przejdź do Ustawienia -> Węzły społecznościowe
  2. Wpisz "n8n-nodes-scrapeninja"
  3. Zainstaluj węzeł

Uwaga: Wymagana jest wersja 0.3.0 lub nowsza węzła ScrapeNinja.

Ograniczenia

Obecnie ten szablon działa wyłącznie w samodzielnie hostowanych instancjach n8n, ponieważ wykorzystuje węzeł społecznościowy. Przed użyciem warto zapoznać się z działaniem szablonu na przykładzie dostępnym pod linkiem:

https://www.linkedin.com/feed/update/urn:li:activity:7289659870935490560/


   Skopiuj kod szablonu   
{"id":"ALTwr1xWxmqGdCtZ","meta":{"instanceId":"5b860a91d7844b5237bb51cc58691ca8c3dc5b576f42d4d6bbedfb8d43d58ece","templateCredsSetupCompleted":true},"name":"ScrapeNinja: AI generated web scraper","tags":[],"nodes":[{"id":"9dd743dd-4ee6-4aaf-820d-7e63ea31399c","name":"ScrapeNinja","type":"CUSTOM.scrapeNinja","position":[200,0],"parameters":{"url":"https://news.ycombinator.com/"},"credentials":{"scrapeNinjaApi":{"id":"u7avPyHEwhTrfQX5","name":"ScrapeNinja account"}},"typeVersion":1},{"id":"fbfe223d-e37f-473d-96c5-a5e89b19e2fc","name":"Google Gemini Chat Model","type":"@n8n/n8n-nodes-langchain.lmChatGoogleGemini","position":[680,280],"parameters":{"options":{},"modelName":"models/gemini-exp-1206"},"credentials":{"googlePalmApi":{"id":"hojczN24FieC3tSg","name":"Google Gemini(PaLM) Api account"}},"typeVersion":1},{"id":"75a9b517-f51e-4b84-90d5-d9352f5185cc","name":"Generate custom web scraper","type":"n8n-nodes-base.manualTrigger","position":[0,0],"parameters":{},"typeVersion":1},{"id":"c1e4e096-ae88-45d4-aed0-d7b92b496b5a","name":"Cleanup HTML","type":"CUSTOM.scrapeNinja","position":[420,0],"parameters":{"html":"={{ $json.body }}","operation":"cleanup-html"},"typeVersion":1},{"id":"dccb1015-ce34-4c4c-b556-a31de8639baf","name":"Generate JS eval code via LLM","type":"@n8n/n8n-nodes-langchain.chainLlm","position":[640,0],"parameters":{"text":"=write cheerio.js function to news items. your response MUST start with:nnfunction extract(html, cheerioInstance) {n// use cheerio to load html...nnreturn [{ url: "item1", "title": "xxx", "score": "5", comments: 6 }, ... ]n}ndo not use new URL() because this wont work in my env.nhtml:n{{ $json.html }}","promptType":"define"},"typeVersion":1.5},{"id":"71c03255-9bb8-4ce8-b191-7b163326aa41","name":"Eval generated code to extract data","type":"CUSTOM.scrapeNinja","position":[1000,0],"parameters":{"html":"={{ $('Cleanup HTML').item.json.html }}","operation":"extract-custom","extractionFunction":"={{ $json.text }}"},"typeVersion":1}],"active":false,"pinData":{},"settings":{"executionOrder":"v1"},"versionId":"2a2dd735-e805-4fda-8a1c-b0c6144e0804","connections":{"ScrapeNinja":{"main":[[{"node":"Cleanup HTML","type":"main","index":0}]]},"Cleanup HTML":{"main":[[{"node":"Generate JS eval code via LLM","type":"main","index":0}]]},"Google Gemini Chat Model":{"ai_languageModel":[[{"node":"Generate JS eval code via LLM","type":"ai_languageModel","index":0}]]},"Generate custom web scraper":{"main":[[{"node":"ScrapeNinja","type":"main","index":0}]]},"Generate JS eval code via LLM":{"main":[[{"node":"Eval generated code to extract data","type":"main","index":0}]]},"Eval generated code to extract data":{"main":[[]]}}}
  • LangChain
Planeta AI 2025 
magic-wandmenu linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram