Esta semana en IA: Big Tech apuesta miles de millones en herramientas de aprendizaje automático

por admin

Mantenerse al día con una industria que evoluciona tan rápidamente como la IA es una tarea difícil. Entonces, hasta que una IA pueda hacerlo por usted, aquí hay un resumen útil de las historias de la semana pasada en el mundo del aprendizaje automático, junto con investigaciones y experimentos notables que no cubrimos por sí solos.

Si no era obvio ya, el panorama competitivo en IA (particularmente el subcampo conocido como IA generativa) está al rojo vivo. Y cada vez hace más calor. Esta semana, Dropbox lanzó su primer fondo de riesgo corporativo, Dropbox Ventures, que según la compañía se centraría en nuevas empresas que crean productos impulsados ​​por inteligencia artificial que «dan forma al futuro del trabajo». Para no quedarse atrás, AWS presentó un programa de 100 millones de dólares para financiar iniciativas de IA generativa encabezadas por sus socios y clientes.

Sin duda, se está desperdiciando mucho dinero en el espacio de la IA. Salesforce Ventures, la división de capital riesgo de Salesforce, planea invertir 500 millones de dólares en nuevas empresas que desarrollen tecnologías de inteligencia artificial generativa. Workday añadió recientemente 250 millones de dólares a su fondo de capital de riesgo existente específicamente para respaldar nuevas empresas de inteligencia artificial y aprendizaje automático. Y Accenture y PwC han anunciado que planean invertir 3.000 millones de dólares y 1.000 millones de dólares, respectivamente, en IA.

Pero uno se pregunta si el dinero es la solución a los desafíos pendientes del campo de la IA.

En un esclarecedor panel durante una conferencia de Bloomberg en San Francisco esta semana, Meredith Whittaker, presidenta de la aplicación de mensajería segura Signal, argumentó que la tecnología que sustenta algunas de las aplicaciones de inteligencia artificial más populares de la actualidad se está volviendo peligrosamente opaca. Dio el ejemplo de alguien que entra a un banco y pide un préstamo.

A esa persona se le puede negar el préstamo y “no tiene idea de que existe un sistema en [the] «Probablemente estaba impulsado por alguna API de Microsoft que determinó, basándose en redes sociales extraídas, que no era solvente», dijo Whittaker. “nunca lo voy a saber [because] No hay ningún mecanismo para que yo sepa esto”.

El problema no es el capital. Más bien, es la jerarquía de poder actual, dice Whittaker.

“He estado en la mesa durante unos 15 años, 20 años. He estado en la mesa. Estar en la mesa sin poder no es nada”, continuó.

Por supuesto, lograr un cambio estructural es mucho más difícil que buscar dinero en efectivo, especialmente cuando el cambio estructural no necesariamente favorecerá a los poderes fácticos. Y Whittaker advierte lo que podría pasar si no hay suficiente reacción.

A medida que se acelera el progreso en la IA, los impactos sociales también se aceleran, y continuaremos recorriendo un “camino lleno de publicidad hacia la IA”, dijo, “donde ese poder está arraigado y naturalizado bajo la apariencia de inteligencia y somos vigilados para el punto [of having] Muy, muy poca agencia sobre nuestras vidas individuales y colectivas”.

Eso debería dar a la industria una pausa. Si realmente voluntad es otro asunto. Probablemente sea algo de lo que escucharemos hablar cuando suba al escenario en Disrupt en septiembre.

Aquí están las otras historias destacadas de IA de los últimos días:

  • La IA de DeepMind controla los robots: DeepMind dice que ha desarrollado un modelo de inteligencia artificial, llamado RoboCat, que puede realizar una variedad de tareas en diferentes modelos de brazos robóticos. Eso por sí solo no es especialmente novedoso. Pero DeepMind afirma que el modelo es el primero en poder resolver y adaptarse a múltiples tareas y hacerlo utilizando diferentes robots del mundo real.
  • Los robots aprenden de YouTube: Hablando de robots, el profesor asistente del CMU Robotics Institute, Deepak Pathak, presentó esta semana VRB (Vision-Robotics Bridge), un sistema de inteligencia artificial diseñado para entrenar sistemas robóticos observando una grabación de un humano. El robot busca algunos datos clave, incluidos los puntos de contacto y la trayectoria, y luego intenta ejecutar la tarea.
  • Otter se mete en el juego del chatbot: El servicio de transcripción automática Otter anunció esta semana un nuevo chatbot con tecnología de inteligencia artificial que permitirá a los participantes hacer preguntas durante y después de una reunión y les ayudará a colaborar con sus compañeros de equipo.
  • La UE pide una regulación de la IA: Los reguladores europeos se encuentran en una encrucijada sobre cómo se regulará la IA (y, en última instancia, se utilizará con fines comerciales y no comerciales) en la región. Esta semana, el grupo de consumidores más grande de la UE, la Organización Europea de Consumidores (BEUC), intervino con su propia posición: dejen de demorarse y “inicien investigaciones urgentes sobre los riesgos de la IA generativa” ahora.
  • Vimeo lanza funciones impulsadas por IA: Esta semana, Vimeo anunció un conjunto de herramientas impulsadas por inteligencia artificial diseñadas para ayudar a los usuarios a crear guiones, grabar imágenes usando un teleprompter incorporado y eliminar pausas largas y disfluencias no deseadas como «ahs» y «ums» de las grabaciones.
  • Capital para voces sintéticas: ElevenLabs, la plataforma viral impulsada por IA para crear voces sintéticas, ha recaudado 19 millones de dólares en una nueva ronda de financiación. ElevenLabs cobró impulso bastante rápido después de su lanzamiento a finales de enero. Pero la publicidad no siempre ha sido positiva, especialmente una vez que los malos actores comenzaron a explotar la plataforma para sus propios fines.
  • Convertir audio en texto: Gladia, una startup francesa de IA, ha lanzado una plataforma que aprovecha el modelo de transcripción Whisper de OpenAI para, a través de una API, convertir cualquier audio en texto casi en tiempo real. Gladia promete que puede transcribir una hora de audio por 0,61 dólares, y el proceso de transcripción dura aproximadamente 60 segundos.
  • Harness adopta la IA generativa: Harness, una startup que crea un conjunto de herramientas para ayudar a los desarrolladores a operar de manera más eficiente, esta semana inyectó un poco de IA a su plataforma. Ahora Harness puede resolver automáticamente fallas de compilación e implementación, encontrar y reparar vulnerabilidades de seguridad y hacer sugerencias para controlar los costos de la nube.

Otros aprendizajes automáticos

Esta semana se celebró la CVPR (Conferencia sobre visión por computadora y reconocimiento de patrones) en Vancouver, Canadá, y desearía haber podido asistir porque las charlas y los artículos parecen muy interesantes. Si solo puedes ver uno, mira el discurso de apertura de Yejin Choi sobre las posibilidades, imposibilidades y paradojas de la IA.

Créditos de imagen: CVPR/YouTube

El profesor de la Universidad de Washington y beneficiario de la Beca MacArthur Genius abordó por primera vez algunas limitaciones inesperadas de los modelos más capaces de la actualidad. En particular, GPT-4 es realmente malo en la multiplicación. No logra encontrar correctamente el producto de dos números de tres dígitos a un ritmo sorprendente, aunque con un poco de persuasión puede hacerlo bien el 95% de las veces. ¿Por qué importa que un modelo de lenguaje no pueda hacer matemáticas? Porque todo el mercado de la IA en este momento se basa en la idea de que los modelos de lenguaje se generalizan bien a muchas tareas interesantes, incluidas cosas como hacer los impuestos o la contabilidad. El punto de Choi fue que deberíamos buscar las limitaciones de la IA y trabajar hacia adentro, no al revés, ya que nos dice más sobre sus capacidades.

Las otras partes de su charla fueron igualmente interesantes y estimulantes. Puedes verlo todo aquí.

Rod Brooks, presentado como un “destructor de exageraciones”, brindó una interesante historia de algunos de los conceptos centrales del aprendizaje automático, conceptos que sólo parecen nuevos porque la mayoría de las personas que los aplicaban no existían cuando se inventaron. Al retroceder décadas, menciona a McCulloch, Minsky e incluso Hebb, y muestra cómo las ideas siguieron siendo relevantes mucho más allá de su tiempo. Es un recordatorio útil de que el aprendizaje automático es un campo sobre los hombros de gigantes que se remonta a la era de la posguerra.

Se enviaron y presentaron muchos, muchos artículos en CVPR, y es reduccionista mirar solo a los ganadores de los premios, pero este es un resumen de noticias, no una revisión exhaustiva de la literatura. Esto es lo que los jueces de la conferencia consideraron más interesante:

Créditos de imagen: AI2

VISPROG, de investigadores de AI2, es una especie de metamodelo que realiza tareas complejas de manipulación visual utilizando una caja de herramientas de código multipropósito. Digamos que tienes una imagen de un oso grizzly sobre un poco de hierba (como se muestra en la imagen); puedes decirle que simplemente «reemplace el oso con un oso polar sobre la nieve» y comienza a funcionar. Identifica las partes de la imagen, las separa visualmente, busca y encuentra o genera un reemplazo adecuado, y une todo de nuevo de forma inteligente, sin necesidad de más indicaciones por parte del usuario. La interfaz de “mejora” de Blade Runner está empezando a parecer francamente vulgar. Y esa es sólo una de sus muchas capacidades.

La “conducción autónoma orientada a la planificación”, de un grupo de investigación multiinstitucional chino, intenta unificar las diversas piezas del enfoque bastante fragmentado que hemos adoptado para los vehículos autónomos. Normalmente hay una especie de proceso gradual de “percepción, predicción y planificación”, cada uno de los cuales puede tener una serie de subtareas (como segmentar personas, identificar obstáculos, etc.). Su modelo intenta poner todo esto en un solo modelo, algo así como los modelos multimodales que vemos que pueden usar texto, audio o imágenes como entrada y salida. De manera similar, este modelo simplifica de alguna manera las complejas interdependencias de una pila de conducción autónoma moderna.

Créditos de imagen: Laboratorio de IA de Shanghai et al.

DynIBaR muestra un método robusto y de alta calidad para interactuar con video utilizando “campos dinámicos de radiación neuronal” o NeRF. Una comprensión profunda de los objetos en el video permite cosas como la estabilización, los movimientos de la plataforma rodante y otras cosas que generalmente no espera que sean posibles una vez que el video ya ha sido grabado. De nuevo… “mejorar”. Este es definitivamente el tipo de cosas para las que Apple te contrata y luego se atribuye el mérito en la próxima WWDC.

Quizás recuerdes DreamBooth de principios de este año, cuando se publicó la página del proyecto. Es el mejor sistema hasta ahora, no hay forma de decirlo, para hacer deepfakes. Por supuesto, realizar este tipo de operaciones con imágenes es valioso y poderoso, además de divertido, e investigadores como los de Google están trabajando para hacerlo más fluido y realista. Consecuencias… más tarde, tal vez.

El premio al mejor trabajo estudiantil se otorga a un método para comparar y unir mallas o nubes de puntos 3D; francamente, es demasiado técnico para intentar explicarlo, pero esta es una capacidad importante para la percepción del mundo real y las mejoras son bienvenidas. Consulte el documento aquí para ver ejemplos y más información.

Sólo dos pepitas más: Intel mostró este interesante modelo, LDM3D, para generar imágenes 3D y 360 como entornos virtuales. Entonces, cuando estás en el metaverso y dices: «Ponnos en una ruina cubierta de maleza en la jungla», simplemente se crea uno nuevo a pedido.

Y Meta lanzó una herramienta de síntesis de voz llamada Voicebox que es súper buena para extraer características de voces y replicarlas, incluso cuando la entrada no es limpia. Por lo general, para la replicación de voz se necesita una buena cantidad y variedad de grabaciones de voz limpias, pero Voicebox lo hace mejor que muchos otros, con menos datos (piense en 2 segundos). Afortunadamente, por ahora mantienen a este genio en la botella. Para aquellos que piensan que podrían necesitar clonar su voz, consulten Acapela.

Pcenter.es – #Esta #semana #Big #Tech #apuesta #miles #millones #herramientas #aprendizaje #automático

Síguenos en YouTube: @PCenterES

También le puede interesar

Deja un comentario

Por favor, permite que se muestren anuncios en nuestro sitio web

Parece que estás usando un bloqueador de anuncios. Dependemos de la publicidad para financiar nuestro sitio web.