Ana içeriğe geç
Sürüm: 2.0.0

Bir URL'den bilgi tabanı

Bu bölümde, bir Web URL'sinden bir vektör koleksiyonu anlık görüntüsünün nasıl oluşturulacağını tartışacağız. İlk olarak, URL'yi yapılandırılmış bir markdown dosyasına ayrıştıracağız. Ardından, URL'niz için gömme oluşturmak için bir markdown dosyasından Bilgi tabanındaki adımları izleyeceğiz.

URL içeriğini bir markdown dosyasına ayrıştırma

Firecrawl, herhangi bir web sitesini tarayabilir ve LLM'ye hazır markdown veya yapılandırılmış verilere dönüştürebilir. Ayrıca bir URL'yi ve erişilebilir tüm alt sayfaları taramayı da destekler.

Firecrawl'ı kullanmak için Firecrawl' a kaydolmanız ve bir API anahtarı almanız gerekir.

İlk olarak, bağımlılıkları yükleyin. Node.JS 20+'ın zaten kurulu olduğunu varsayıyoruz.

git clone https://github.com/JYC0413/firecrawl-integration.git
cd firecrawl-integration
npm kurulumu

Ardından, API anahtarını terminalden dışa aktarın.

export FIRECRAWL_KEY="your_api_key_here"

Daha sonra, servisi çalıştırmak için aşağıdaki komut satırını kullanabiliriz.

node crawlWebToMd.js

Uygulama başarılı bir şekilde çalıştıktan sonra, Terminal'de komut isteminin göründüğünü göreceksiniz.

URL'nizi şu anda terminale yazabilirsiniz. Burada iki seçeneğimiz var.

  • Birden fazla sayfa: bağlantınızı şu şekilde girin / Sonunda, program sayfayı ve alt sayfalarını tarayacak ve tek bir markdown dosyasına dönüştürecektir. Bu yol çok sayıda API token kullanımına mal olacaktır.
  • Tek bir sayfa: bağlantınızı olmadan girin / program mevcut sayfayı tarayacak ve tek bir markdown dosyasına dönüştürecektir.

Çıktı markdown dosyası şu adlı klasörde bulunacaktır output.md.

Markdown dosyalarından katıştırmalar oluşturma

Lütfen markdown dosyanızı GaiaNet düğümüne aktarılabilecek bir gömme anlık görüntüsüne dönüştürmek için bir markdown dosyasından bilgi tabanı öğreticisini izleyin.