Ta automatyzacja w n8n służy do wydobywania, przetwarzania i przechowywania treści z dokumentów w magazynie wektorowym Pinecone z wykorzystaniem chunkingu opartego na kontekście. Workflow poprawia dokładność wyszukiwania w systemach RAG (Retrieval-Augmented Generation), zapewniając, że każdy fragment zachowuje znaczący kontekst.
Automatyzacja rozpoczyna się od pobrania dokumentu źródłowego z Google Drive. Dokument zawiera ustrukturyzowaną treść z wcześniej zdefiniowanymi znacznikami granic sekcji.
Po pobraniu dokumentu, jego tekst jest wyodrębniany do przetworzenia. Specjalne znaczniki granic sekcji służą do podziału tekstu na logiczne części.
Niestandardowy węzeł kodu przetwarza wyodrębniony tekst, identyfikując granice sekcji i dzieląc dokument na znaczące fragmenty. Każdy fragment jest strukturyzowany tak, aby zachować kontekst w całym dokumencie.
Workflow przechodzi przez każdy fragment w pętli, zapewniając ich indywidualne przetworzenie przy zachowaniu powiązania z ogólnym kontekstem dokumentu.
Używamy węzła Agent z wykorzystaniem OpenAI GPT-4.0-mini przez OpenRouter do generowania metadanych kontekstowych dla każdego fragmentu, co poprawia dokładność wyszukiwania.
Wygenerowany kontekst jest dołączany do oryginalnego fragmentu, tworząc bogate w kontekst embeddingi, które poprawiają możliwości wyszukiwania.
Przetworzony tekst jest przekazywany przez Google Gemini text-embedding-004, który konwertuje tekst na reprezentacje wektorowe.
Ostateczne embeddingi wraz z wzbogaconą treścią fragmentów i metadanymi są przechowywane w Pinecone, co ułatwia ich późniejsze wyszukiwanie w aplikacjach opartych na RAG.
Ta automatyzacja znacząco poprawia efektywność systemów RAG, zapewniając bardziej trafne odpowiedzi AI. Jest idealna dla aplikacji wymagających zaawansowanego przetwarzania dokumentów i inteligentnego wyszukiwania.