Con Evals, OpenAI espera realizar pruebas de modelos de IA mediante crowdsourcing

por admin

Además de GPT-4, OpenAI ha abierto un marco de software para evaluar el rendimiento de sus modelos de IA. OpenAI, llamada Evals, dice que la herramienta permitirá a cualquiera informar deficiencias en sus modelos para ayudar a guiar las mejoras.

Es una especie de enfoque de crowdsourcing para las pruebas de modelos, explica OpenAI en una publicación de blog.

«Usamos Evals para guiar el desarrollo de nuestros modelos (tanto para identificar deficiencias como para prevenir regresiones), y nuestros usuarios pueden aplicarlo para realizar un seguimiento del rendimiento en todas las versiones de modelos y en la evolución de las integraciones de productos», escribe OpenAI. «Esperamos que Evals se convierta en un vehículo para compartir y obtener puntos de referencia de forma colectiva, representando un conjunto lo más amplio posible de modos de falla y tareas difíciles».

OpenAI creó Evals para desarrollar y ejecutar puntos de referencia para evaluar modelos como GPT-4 mientras inspecciona su rendimiento. Con Evals, los desarrolladores pueden usar conjuntos de datos para generar indicaciones, medir la calidad de las terminaciones proporcionadas por un modelo OpenAI y comparar el rendimiento entre diferentes conjuntos de datos y modelos.

Evals, que es compatible con varios puntos de referencia de IA populares, también admite la escritura de nuevas clases para implementar una lógica de evaluación personalizada. Como ejemplo a seguir, OpenAI creó una evaluación de acertijos lógicos que contiene 10 mensajes donde falla GPT-4.

Lamentablemente todo es trabajo no remunerado. Pero para incentivar el uso de Evals, OpenAI planea otorgar acceso a GPT-4 a quienes aporten puntos de referencia de «alta calidad».

«Creemos que Evals será una parte integral del proceso de uso y construcción de nuestros modelos, y agradecemos contribuciones directas, preguntas y comentarios», escribió la compañía.

Con Evals, OpenAI (que recientemente dijo que dejaría de utilizar datos de clientes para entrenar sus modelos de forma predeterminada) está siguiendo los pasos de otros que han recurrido al crowdsourcing para robustecer los modelos de IA.

En 2017, el Laboratorio de Lingüística Computacional y Procesamiento de Información de la Universidad de Maryland lanzó una plataforma denominada Break It, Build It, que permitía a los investigadores enviar modelos a usuarios encargados de encontrar ejemplos para derrotarlos. Y Meta mantiene una plataforma llamada Dynabench que tiene modelos «engañosos» para los usuarios diseñados para analizar sentimientos, responder preguntas, detectar discursos de odio y más.

Pcenter.es – #Con #Evals #OpenAI #espera #realizar #pruebas #modelos #mediante #crowdsourcing

Síguenos en YouTube: @PCenterES

También le puede interesar

Deja un comentario