Un pequeño laboratorio en China ha sacudido Silicon Valley.
La repentina aparición de un asistente avanzado de IA de DeepSeek, una empresa hasta entonces poco conocida en la ciudad china de Hangzhou, ha provocado discusiones y debates dentro de la industria tecnológica estadounidense sobre lo que dice sobre la carrera más amplia del desarrollo de la IA.
El asistente de DeepSeek alcanzó el número uno en la App Store de Apple en los últimos días, y los modelos de inteligencia artificial que impulsan al asistente ya están superando a los mejores modelos estadounidenses, y la compañía dice que fueron fabricados con una fracción de los recursos.
Recibe las noticias locales y los pronósticos del tiempo directo a tu email. Inscríbete para recibir newsletters de Telemundo Tampa aquí.
DeepSeek lanzó su último modelo de lenguaje grande, R1, hace una semana. Sólo superado por el modelo o1 de OpenAI en el Índice de Calidad de Análisis Artificial, una clasificación independiente de análisis de IA muy seguida, R1 ya está superando a una variedad de otros modelos, incluidos Gemini 2.0 Flash de Google, Claude 3.5 Sonnet de Anthropic, Llama 3.3-70B de Meta y GPT de OpenAI. -4o.
“DeepSeek R1 es el momento Sputnik de la IA”, escribió el domingo X el empresario Marc Andreessen, conocido por coescribir Mosaic, uno de los primeros navegadores web del mundo, comparándolo con la carrera espacial entre Estados Unidos y la Unión Soviética y el evento que obligó a Estados Unidos se diera cuenta de que sus capacidades tecnológicas no eran inexpugnables.
Las acciones tecnológicas cayeron bruscamente el lunes, y el Nasdaq Composite cayó un 3.4% apenas unos minutos después del día de negociación. Las grandes empresas tecnológicas estadounidenses están invirtiendo cientos de miles de millones de dólares en tecnología de inteligencia artificial.
Una de las competencias centrales de R1 es su capacidad para explicar su pensamiento a través del razonamiento en cadena de pensamiento, cuyo objetivo es dividir tareas complejas en pasos más pequeños. Este método permite que el modelo retroceda y revise pasos anteriores, imitando el pensamiento humano, al tiempo que permite a los usuarios seguir su razonamiento.
En el Foro Económico Mundial de la semana pasada en Suiza, el director ejecutivo de Microsoft, Satya Nadella, cuya empresa es uno de los mayores inversores de OpenAI, calificó el nuevo modelo de DeepSeek de "súper impresionante" y agregó que cree que "deberíamos tomarnos los desarrollos de China muy, muy en serio". "
Tanto R1 como o1 son parte de una clase emergente de modelos de “razonamiento” destinados a resolver problemas más complejos que las generaciones anteriores de modelos de IA. Pero a diferencia del o1 de OpenAI, el R1 de DeepSeek es de uso gratuito y de peso abierto, lo que significa que cualquiera puede estudiar y copiar cómo se creó.
R1 se basó en el modelo anterior V3 de DeepSeek, que también había superado a GPT-4o, Llama 3.3-70B y Qwen2.5-72B de Alibaba, el anterior modelo de IA líder en China. Tras su lanzamiento a finales de diciembre, V3 estaba funcionando a la par con Claude 3.5 Sonnet.
Parte de lo que hace que R1 sea tan impresionante son las afirmaciones de DeepSeek sobre su desarrollo.
R1 tardó sólo dos meses y menos de 6 millones de dólares en construirse, según un informe técnico de DeepSeek, incluso cuando las principales empresas tecnológicas de Estados Unidos siguen gastando miles de millones de dólares al año en IA. DeepSeek también tuvo que sortear las restricciones a las exportaciones de Estados Unidos que limitaban el acceso a los mejores chips informáticos de IA, lo que obligó a la empresa a construir sus modelos con chips menos potentes.
Ha desatado un acalorado debate en los círculos tecnológicos estadounidenses: ¿Cómo es que una pequeña empresa china superó tan dramáticamente a los actores mejor financiados de la industria de la IA? ¿Y qué significa esto para el campo en el futuro?
El científico jefe de IA de Meta, Yann LeCun, escribió en una publicación de Threads que este desarrollo no significa que China esté "superando a los EEUU en IA", sino que sirve como evidencia de que "los modelos de código abierto están superando a los propietarios". Añadió que DeepSeek se benefició de otros modelos de peso abierto, incluidos algunos de Meta.
“Se les ocurrieron nuevas ideas y las construyeron sobre el trabajo de otras personas. Debido a que su trabajo está publicado y es de código abierto, todos pueden beneficiarse de él”, escribió LeCun. "Ese es el poder de la investigación abierta y del código abierto".
(Aunque muchas empresas, incluidas DeepSeek y Meta, afirman que sus modelos de IA son de código abierto, en realidad no han revelado sus datos de entrenamiento al público).
El CEO de OpenAI, Sam Altman, también pareció atacar a DeepSeek el mes pasado, después de que algunos usuarios notaron que V3 ocasionalmente se confundía con ChatGPT. Un día después del lanzamiento de V3, Altman escribió en X que “es (relativamente) fácil copiar algo que sabes que funciona. Es extremadamente difícil hacer algo nuevo, arriesgado y difícil cuando no sabes si funcionará”.
Algunas cifras en línea lanzaron afirmaciones sin fundamento de que el éxito de DeepSeek es una “operación psicológica” del gobierno chino, lo que genera sospechas sobre la capacidad del pequeño equipo de “vencer a todos los mejores investigadores del mundo como un proyecto paralelo”.
Soumith Chintala, cofundador de PyTorch, la biblioteca de aprendizaje automático desarrollada por Meta AI, fue uno de los muchos que este fin de semana respondió a estas acusaciones.
"Estoy cómicamente impresionado de que la gente se las arregle con Deepseek arrojando extrañas teorías de conspiración, a pesar de que Deepseek abre fuentes y escribe algunos de los artículos más detallados de todos los tiempos", publicó Chintala en X. "leer. reproducir exactamente. competir. No seas salado, sólo te hará parecer incompetente”.
Otros en las esferas de la tecnología y la inversión se sumaron a los elogios y expresaron entusiasmo por las implicaciones del éxito de DeepSeek.
“Esto es lo que hace que DeepSeek sea tan divertido. Un grupo de estafadores han estado vendiendo salsa secreta de IA durante años: un jugo misterioso y espeluznante que nunca podría explicarse completamente”, escribió el macroeconomista Philip Pilkington en X. “Ahora un grupo de jóvenes escribieron un buen algoritmo, lo publicaron y el circo La tienda se quemó”.
Nat Friedman, exdirector ejecutivo de Github, publicó de manera similar: “El equipo de búsqueda profunda es obviamente realmente bueno. China está llena de ingenieros talentosos. Cualquier otra toma es para hacer frente. Lo siento."
Los modelos de DeepSeek promocionan el dominio bilingüe, sobresaliendo tanto en chino como en inglés. Sin embargo, parecen sujetos a censura o inclinaciones políticas específicas en torno a temas considerados delicados en China.
Cuando se le pregunta sobre la soberanía de Taiwán, una isla democrática autónoma que Beijing reclama como su territorio, el R1 de DeepSeek a veces afirma que el tema está “más allá de mi alcance actual”. Otras veces, el modelo describe a Taiwán como “una parte inalienable del territorio de China”, y agrega: “Nos oponemos firmemente a cualquier forma de actividades separatistas de ‘independencia de Taiwán’ y estamos comprometidos a lograr la reunificación completa de la patria por medios pacíficos”.
Pisándole los talones a los últimos modelos de DeepSeek, otros actores del sector tecnológico de China ya están lanzando nuevos contendientes en la carrera por el dominio de la IA.
Alibaba presentó el domingo su nuevo modelo Qwen2.5-1M, una actualización del Qwen2.5-72B.
Kimi AI, propiedad de la empresa Moonshot AI, con sede en Beijing, también anunció el sábado el lanzamiento de su último modelo de razonamiento multimodal Kimi k1.5, que promociona como comparable al o1 de OpenAI.