Herramientas 18/10/2023

Los autores del paper "Extracting Financial Data from Unstructured Sources: Leveraging Large Language Models" publicado hace unos días, hacen un ejercicio muy interesante; utilizan una aplicación de AI (ChatPDF) para extraer datos financieros, desperdigados por documentos PDF de empresas que cotizan en bolsa. Un problema común en la investigación y análisis de estados financieros o de otro tipo de información relacionada con las finanzas.

Según sus autores "los resultados de las pruebas piloto indican que el marco alcanza una tasa de precisión del 100% en un periodo de tiempo notablemente corto a la hora de extraer indicadores financieros clave.·

Yo no iría tan lejos, la herramienta tiene muchas limitaciones, pero es cierto que es un primer paso para las mejoras y evolución que vendrán. Como sabemos esto va muy rápido y en un año veremos cosas que parecían impensables.

La aplicación que utilizan es ChatPDF.com , yo la he utilizado en algunas ocasiones, básicamente para papers larguísimos, muy técnicos, en los que le pregunto cosas concretas para no tragarme todo el tocho infumable. Los resultados son mas o menos decentes, aunque limitados. En mi caso si a partir de ahí veo que me dice algo interesante, entonces profundizo, si no descarto el paper.

En este sentido, y utilizando los comandos que propone el paper (da comandos específicos), he comprendido que necesito conocimientos mínimos de dicho lenguaje que no tengo. Me refiero a entender la forma de "dialogar" con una máquina de LLM.

Este es el esquema que han seguido:

Cómo extraer datos financieros de pdf con ChatPDF (AI) y pasrlos a csv

Otro de los temas que comentan y que es relevante, es el potencial de los LLM como alternativa a la estandarización de datos, apartándose del enfoque predominante de de una taxonomía centralizada y detallada, como las iniciativas en curso para introducir XBRL (Business Reporting Standard) en el ámbito de la contabilidad de entes públicos. Este apunte no es menor, diría que tiene un alcance mucho mayor, dado que la adopción de la taxonomía XBRL es muy compleja y llevan muchísimos años intentando adoptarla. Aquí un post que escribí hace muchísimos años relacionado con el tema.

Volviendo a lo práctico inmediato, lo interesante del experimento es la posibilidad de descargar la información que queremos en formato CSV, porque desde ahí podemos tratar los datos, sin demasiado trabajo, en Excel o cualquier otro programa de tratamiento de datos, evitando meter datos a mano durante horas.

Estos son los resultados de precisión y rapidez:

Precisión de chatpdf para pasa rdatos financieros de pdf a csv.

El "prompt" es la orden que le das al chat "Dime esto, dame sta cifra...". Según esto tiene un 100% de precisión y da la información en tan solo 4 minutos, mientras que a mano un experto lo haríamos en 200 minutos (más de 3 horas para extraer la información). Eso si, habiendo hecho retoques ("refined prompt").

Aquí tengo que señalar, que los comandos (prompts) que dan en el estudio solo sirven para cuentas anuales que siguen las USGAAP de USA y no te sirven para, por ejemplo, la información de una cotizada española. Con lo cual ese tiempo de 4 minutos no es real, es mucho mayor,

Supongo que con el tiempo habrá prompts estandarizados para todo, incluso estudios que se dediquen a ello.

Lo cierto es que existen plugins sobre pdf que ya te hacen esta función, pero el recorrido del lenguaje LLM para mejorar y profundizar este tipo de solución es mucho más amplio y profundo.

Te animo a que entres y pruebes los diálogos o prompts que utilizan en el paper. La herramienta (chatpdf.com) es sencillísima y no requiere darse de alta. Puedes subir el pdf arrastrándolo o poniendo directamente la url donde esta subido dicho pdf.

Para seguir nuevas entradas utiliza el feed (rss) del blog en un agregador como feedly. No utilizo cookies de rastreo, ni newsletter, ni redes sociales. Escríbeme. Jorge.