PDF dosyasından bilgi tabanı
Bu bölümde, bir PDF dosyasından bir vektör koleksiyonu anlık görüntüsünün nasıl oluşturulacağını tartışacağız. İlk olarak, yapılandırılmamış PDF dosyasını yapılandırılmış bir markdown dosyasına ayrıştıracağız. Ardından, PDF dosyalarınız için gömme oluşturmak için bir markdown dosyasından Bilgi tabanındaki adımları izleyeceğiz.
PDF dosyasını markdown dosyasına dönüştürme araçları
Araç #1: LlamaParse
LlamaParse, optimum RAG için dosyaları ayrıştırmaya yarayan bir araçtır. https://cloud.llamaindex.ai adresinden bir LlamaCloud anahtarına ihtiyacınız olacak .
İlk olarak, bağımlılıkları yükleyin. Node.JS 20+'nın zaten yüklü olduğunu varsayıyoruz.
git clone https://github.com/alabulei1/llamaparse-integration.git
cd llamaparse-integration
npm install llamaindex
npm install dotenv
Ardından, düzenleyin .env
dosyasını PDF dosya yolunu ve LlamaCloud Anahtarını ayarlamak için kullanabilirsiniz. Bu durumda, LLM ile ilgili ayarları önemsemeniz gerekmez.
Bundan sonra, pdf'nizi bir markdown dosyasına ayrıştırmak için aşağıdaki komut satırını çalıştırın.
npx tsx transMd.ts
Çıktı markdown dosyası şu adlı klasörde bulunacaktır output.md
varsayılan olarak. Yolu şuradan değiştirebilirsiniz .env
dosya.
Araç #2: GPTPDF
GPTPDF, PDF'yi markdown'a ayrıştırmak için GPT-4o kullanan açık kaynaklı bir araçtır. Burada bir OpenAI anahtarına ihtiyacınız olacak.
İlk olarak, gptpdf yazılımını yükleyin.
pip install gptpdf
Ardından, Python ortamına girin.
python
Ardından, pdf'nizi ayrıştırmak için aşağıdaki komutu kullanın.
from gptpdf import parse_pdf
api_key = 'OpenAI API Anahtarınız'
content, image_paths = parse_pdf(Your_Pdf_Path, api_key=api_key)
print(içerik)
Çıktı markdown dosyalarının adı output.md
kök dizininizde yer alacaktır.
Markdown dosyalarından katıştırmalar oluşturma
Lütfen markdown dosyanızı GaiaNet düğümüne aktarılabilecek bir gömme anlık görüntüsüne dönüştürmek için bir markdown dosyasından bilgi tabanı öğreticisini izleyin.