Využitie velkých jazykových modelov na efektívnu analýzu náboženských textov

Authors

  • Miloslav Valčo

Abstract

Štúdia sa zaoberá úlohou získavania informácií (z angl. information retrieval) z dokumentov s náboženskými témami v slovenskom jazyku pomocou embeddingových modelov, s cieľom zrýchlenia a zefektívnenia analýzy týchto textov pre odborníkov v danej oblasti. Pomocou verejne dostupných embeddingových modelov Slovak-BERT a BGE M3 a proprietárneho modelu text-embedding-3-small od OpenAI sme generovali embeddingové indexy z textových blokov dostupných dát a vyhodnocovali metriku recall naprieč piatimi rôznymi témami pomocou testovacích otázok. Skúmali sme tiež rôzne techniky predspracovania, ako je kontextová augmentácia testovacích otázok a odstraňovanie vyradených slov (z angl. stopwords). Výsledky naznačujú, že táto metodológia môže byť užitočná pre zefektívnenie výskumu náboženských textov a môže pomôcť odhaliť skryté interpretácie a významy obsiahnuté v týchto textoch. Naše zistenia tiež zdôrazňujú dôležitosť výberu vhodnej techniky predspracovania pre daný model a dáta.

Published

2025-04-04

Issue

Section

Articles