Ana içeriğe geç
Sürüm: 1.0.0

PDF dosyasından bilgi tabanı

Bu bölümde, bir PDF dosyasından bir vektör koleksiyonu anlık görüntüsünün nasıl oluşturulacağını tartışacağız. İlk olarak, yapılandırılmamış PDF dosyasını yapılandırılmış bir markdown dosyasına ayrıştıracağız. Ardından, PDF dosyalarınız için gömme oluşturmak için bir markdown dosyasından Bilgi tabanındaki adımları izleyeceğiz.

PDF dosyasını markdown dosyasına dönüştürme araçları

Araç #1: LlamaParse

LlamaParse, optimum RAG için dosyaları ayrıştırmaya yarayan bir araçtır. https://cloud.llamaindex.ai adresinden bir LlamaCloud anahtarına ihtiyacınız olacak .

İlk olarak, bağımlılıkları yükleyin. Node.JS 20+'nın zaten yüklü olduğunu varsayıyoruz.

git clone https://github.com/alabulei1/llamaparse-integration.git
cd llamaparse-integration
npm install llamaindex
npm install dotenv

Ardından, düzenleyin .env dosyasını PDF dosya yolunu ve LlamaCloud Anahtarını ayarlamak için kullanabilirsiniz. Bu durumda, LLM ile ilgili ayarları önemsemeniz gerekmez.

Bundan sonra, pdf'nizi bir markdown dosyasına ayrıştırmak için aşağıdaki komut satırını çalıştırın.

npx tsx transMd.ts

Çıktı markdown dosyası şu adlı klasörde bulunacaktır output.md varsayılan olarak. Yolu şuradan değiştirebilirsiniz .env dosya.

Araç #2: GPTPDF

GPTPDF, PDF'yi markdown'a ayrıştırmak için GPT-4o kullanan açık kaynaklı bir araçtır. Burada bir OpenAI anahtarına ihtiyacınız olacak.

İlk olarak, gptpdf yazılımını yükleyin.

pip install gptpdf

Ardından, Python ortamına girin.

python

Ardından, pdf'nizi ayrıştırmak için aşağıdaki komutu kullanın.

from gptpdf import parse_pdf
api_key = 'OpenAI API Anahtarınız'
content, image_paths = parse_pdf(Your_Pdf_Path, api_key=api_key)
print(içerik)

Çıktı markdown dosyalarının adı output.md kök dizininizde yer alacaktır.

Markdown dosyalarından katıştırmalar oluşturma

Lütfen markdown dosyanızı GaiaNet düğümüne aktarılabilecek bir gömme anlık görüntüsüne dönüştürmek için bir markdown dosyasından bilgi tabanı öğreticisini izleyin.