IA: ¿las reglas de juego están cambiando?

La reciente irrupción de DeepSeek en la escena mundial ha provocado enormes impactos que llevaron a Mark Andreessen (https://es.wikipedia.org/wiki/Marc_Andreessen) a decir que “DeepSeek es el Sputnik de la IA”. Los mercados de valores reaccionaron de inmediato, causando grandes pérdidas estimadas entre 400 y 600 billones de dólares USA en el valor de las acciones de NVIDIA, entre otros, pero, sobre todo, replanteándose el liderazgo de las Big Tech en IA y lo acertado, o no, de sus gigantescas inversiones en infraestructura, ante las pruebas de que es posible hacer lo mismo con muchísimo menos recursos. ¿Estamos ante nuevos paradigmas? ¿Están cambiando las reglas de juego en la arena de la IA? En este artículo analizamos por qué y de qué manera DeepSeek y otras empresas tecnológicas chinas de todos los tamaños están cuestionando con argumentos sólidos la predominancia de las empresas tecnológicas estadounidenses, hasta hace poco no cuestionada. Les deseo una buena lectura sobre este tema, que seguirá generando novedades en los próximos días, semanas y meses.

IA

José Nordmann

12/11/20258 min read

Impacto en los mercados de valores

Liang Wenfeng (40 años, nacido en 1985) es un ingeniero y empresario chino que estudió en la incubadora de startups en China, la ciudad de Hangzhou, y es cofundador del fondo de inversión cuantitativo de alto riesgo High-Flyer, así como fundador y director ejecutivo de DeepSeek, una empresa de inteligencia artificial, cuya aparición está desatando un terremoto en la bolsa de Wall Street.

El índice Nasdaq-100 que agrupa las mayores 100 empresas no financieras que cotizan en la bolsa Nasdaq cayó un 2,19% este lunes 27/01/2025, lo que representa la mayor caída en seis semanas, con pérdidas por un valor de casi un billón de dólares. El precio de las acciones del fabricante estadounidense de chips GPU de IA NVDIA Corp. se redujo entre 13% y 17 %, registrando su peor día desde marzo de 2020. Diferentes analistas estiman las pérdidas de NVIDIA entre 400 y 600 billones de dólares.

Asimismo, las acciones tecnológicas del patrocinador de ChatGPT Microsoft, Meta Platforms y la matriz de Google Alphabet, registraron derrumbes del 3,8%, 0,8% y 3,4%, respectivamente. Por otra parte, la bolsa de valores de Japón, Nikkei cedió un 1%, mientras que el inversor en 'startups' de IA japonés SoftBank Group se desplomó más de un 8%.

Mientras tanto, los valores chinos relacionados con la IA han experimentado una subida. Las acciones de las empresas tecnológicas vinculadas a DeepSeek subieron, con Iflytek Co. registrando un aumento del 1,73%, y Merit Interactive Co. superando sus límites diarios, con una subida de más del 20%.

El analista Kaith Lerner del banco estadounidense Truist Bank explicó que la popularidad del modelo de DeepSeek "está llevando a los inversores a cuestionarse el liderazgo de las empresas estadounidenses, cuánto están gastando y si ese gasto se traducirá en beneficios".

En este sentido, Charu Chanana, estratega y jefa de inversiones del banco danés de inversiones Saxo Bank, asegura que el crecimiento de la 'startup' asiática "podría despertar un renovado interés de los inversores por las infravaloradas empresas chinas de IA, proporcionando una historia de crecimiento alternativa".

Las peculiaridades de DeepSeek

DeepSeek es un tipo de LLM conocido como Modelo de Razonamiento, lo que, en el contexto de la inteligencia artificial, es un sistema computacional diseñado para simular el proceso de pensamiento humano, imitando la capacidad de las personas para analizar información, resolver problemas, tomar decisiones y llegar a conclusiones lógicas.

Los modelos de razonamiento se entrenan con grandes cantidades de datos, lo que les permite identificar patrones, relaciones y conexiones entre diferentes elementos de información. Una vez entrenados, pueden inferir conclusiones que no estaban explícitas en los datos y premisas, resolver problemas complejos mediante la aplicación de reglas lógicas y el análisis de diferentes escenarios, tomar decisiones seleccionando la opción que consideren más adecuada según los criterios establecidos y generar explicaciones justificando sus conclusiones y decisiones de manera comprensible para los humanos.

Los modelos de razonamiento como DeepSeek tienen un amplio rango de aplicaciones, incluyendo el Diagnóstico Médico, ayudando a los médicos a identificar enfermedades y a recomendar tratamientos, los Asistentes Virtuales, interactuando con los usuarios de manera natural y respondiendo a sus preguntas, los Sistemas de Recomendación, sugiriendo productos o servicios personalizados a los usuarios, los Vehículos Autónomos, tomando decisiones en tiempo real para conducir de manera segura, y la Investigación Científica, ayudando a los científicos a analizar grandes cantidades de datos para descubrir nuevos conocimientos.

Existen diversos tipos de modelos de razonamiento, cada uno con sus características y aplicaciones específicas, como los Modelos Basados en Reglas, que usan un conjunto de reglas predefinidas que el modelo aplica para llegar a una conclusión, los Modelos Basados en Casos, que comparan un nuevo problema con casos similares ya resueltos para encontrar la mejor solución, las Redes Neuronales Artificiales, que simulan el funcionamiento del cerebro humano y aprenden a través de ejemplos, y los Modelos de Lenguaje, que se especializan en el procesamiento del lenguaje natural y pueden realizar tareas como la traducción, la generación de texto y la respuesta a preguntas.

DeepSeek no se clasifica estrictamente dentro de una sola categoría de los modelos de razonamiento. Si bien comparte características de varios de ellos, su enfoque es más bien híbrido y se aprovecha de las ventajas de diferentes técnicas:

  • Elementos de Redes Neuronales Artificiales: DeepSeek, al igual que muchos modelos de IA modernos, utiliza redes neuronales para procesar información y aprender patrones. Esto le permite realizar tareas como el procesamiento del lenguaje natural y la generación de texto de manera muy eficiente.

  • Capacidades de razonamiento similares a los Modelos Basados en Reglas: DeepSeek ha demostrado ser capaz de seguir cadenas de pensamiento y resolver problemas que requieren una cierta lógica, lo cual es una característica típica de los modelos basados en reglas. Sin embargo, no se limita a seguir reglas predefinidas de manera rígida.

  • Aprendizaje a partir de Datos: Al igual que los Modelos basados en Casos, DeepSeek aprende de grandes cantidades de datos. Sin embargo, no se limita a comparar nuevos casos con casos almacenados, sino que es capaz de generalizar y aplicar su conocimiento a nuevas situaciones.

  • Procesamiento del Lenguaje Natural: DeepSeek es un modelo de lenguaje, lo que significa que está diseñado para entender y generar texto. Sin embargo, va más allá de la simple comprensión del lenguaje, ya que es capaz de realizar tareas que requieren un nivel más alto de razonamiento.

DeepSeek es un modelo de IA de última generación que combina lo mejor de varios mundos. Su capacidad para aprender, razonar y generar texto lo convierte en una herramienta muy versátil con un gran potencial en diversas aplicaciones.

Kush Varshney de IBM dijo: "Lo que es realmente impresionante es la capacidad de razonamiento de los modelos de DeepSeek". Los modelos de razonamiento esencialmente se verifican a sí mismos, representando un tipo de "metacognición" o "pensamiento sobre el pensamiento", dice Varshney. "Ahora estamos empezando a poner sabiduría en estos modelos, y eso es un gran paso".

Los modelos de razonamiento se convirtieron en el tema candente de conversación el pasado mes de septiembre, cuando OpenAI presentó un avance de su modelo de razonamiento o1 (justamente, los benchmarks presentados por DeepSeek lo comparan con OpenAI o1). A diferencia de los modelos de IA anteriores, que producían una respuesta sin explicar el razonamiento, resuelven problemas complejos dividiéndolos en pasos. Los modelos de razonamiento pueden tardar unos segundos o minutos más en responder porque reflexionan sobre su análisis paso a paso, o en una "cadena de pensamiento".

Reacciones preliminares de los competidores

La estruendosa irrupción de DeepSeek en el mercado de inmediato produjo reacciones entre cautelosas y venenosas, sobre todo de parte de sus competidores estadounidenses, quienes se consideraban líderes indiscutidos de la industria de IA.

Varios voceros de IBM se apresuraron a mencionar que los benchmarks que miden la performance de los LLM son indicadores importantes, pero que es necesario tener en cuenta otros aspectos como la facilidad de integración con otros aplicativos, que cuenten con funcionalidades de gobernanza y buenas prácticas, y una serie de funcionalidades end-to-end adicionales y complementarias de la performance con escasos recursos computacionales.

Tal vez una de las reacciones más “venenosas” fue la acusación de que DeepSeek utiliza Knowledge Distillation (Destilación de Conocimiento) para replicar los modelos LLM más grandes, como GPT. La Destilación de Conocimiento es una técnica en la que un modelo de IA más pequeño (el "estudiante") aprende el modo de razonamiento y logra imitar las respuestas de un modelo más grande y complejo (el "maestro"). Algo así como si el modelo más pequeño estuviera "aprendiendo de un experto".

Existen varias razones por las cuales una empresa como DeepSeek podría querer utilizar Destilación de Conocimiento, como:

· Reducción de Costos: Los LLM grandes requieren una gran cantidad de recursos computacionales para entrenarlos y ejecutarlos. Al utilizar Destilación de Conocimiento, DeepSeek podría crear un modelo más pequeño y eficiente que requiera menos recursos.

  • Aceleración del desarrollo: En lugar de entrenar un modelo desde cero, DeepSeek podría aprovechar el conocimiento preexistente de un modelo más grande.

  • Personalización: DeepSeek podría adaptar el modelo estudiante a necesidades específicas, ajustándolo para tareas concretas o para un dominio de conocimiento particular.

Aunque se trata de una “acusación” muy grave, por el momento no ha pasado de comentarios deslizados por voceros de las Big Tech en entrevistas y podcasts, pero si se comprueba que DeepSeek ha utilizado Destilación de Conocimiento de manera inapropiada, podría tener varias consecuencias, como la violación de derechos de autor, la competencia desleal y preocupaciones éticas y sobre la transparencia de los modelos de IA. Independientemente de las escasas probabilidades de que prospere con el aporte de pruebas y evidencias, esta posible acusación contra DeepSeek podría generar un interesante debate sobre el uso ético de la inteligencia artificial y la propiedad intelectual.

¿Por qué tanto alboroto?

Lo que sucedió con la aparición de DeepSeek no parece ser un fenómeno aislado de una única startup china, sino que podría estar poniéndose en entredicho la predominancia de las Big Tech de los Estados Unidos, nada menos que en la arena de la IA. Además de DeepSeek, varias empresas chinas de inteligencia artificial, grandes y pequeñas, han lanzado recientemente nuevos y llamativos modelos de lenguaje de código abierto que pueden competir con los mejores de OpenAI, Anthropic y Google.

Byte Dance, el gigante tecnológico chino propietario de TikTok, anunció recientemente su propio agente de razonamiento, UI-TARS, que, según afirma, supera a GPT-4o de OpenAI, Claude de Anthropic y Gemini de Google en ciertos puntos de referencia. El agente de ByteDance puede leer interfaces gráficas, razonar y tomar medidas autónomas paso a paso.

El verano pasado, la empresa china Kuaishou dio a conocer una herramienta de generación de video que era como Sora de OpenAI, pero disponible para el público desde el primer momento. Sora se dio a conocer en febrero de 2024, pero sólo se lanzó por completo en diciembre, e incluso entonces sólo aquellos con una suscripción a ChatGPT Pro pudieron acceder a todas sus funcionalidades.

Los desarrolladores de Hugging Face también han adquirido nuevos modelos de código abierto de los gigantes tecnológicos chinos Tencent y Alibaba. Si bien Meta ha abierto el código de sus Modelos de Llamas, tanto OpenAI como Google han seguido un enfoque predominantemente de código cerrado para el desarrollo de sus modelos.

Desde nuevas empresas hasta gigantes establecidos, las empresas chinas de IA parecen estar cerrando la brecha con sus rivales estadounidenses, en gran parte gracias a su voluntad de abrir código o compartir el código de software subyacente con otras empresas y desarrolladores de software.

Además de la ventaja del código abierto, los ingenieros de DeepSeek también utilizaron sólo una fracción de los chips altamente especializados de NVIDIA utilizados por sus competidores estadounidenses para entrenar sus sistemas. Los ingenieros de DeepSeek, por ejemplo, dijeron que sólo necesitaban 2.000 GPU (Unidades de Procesamiento Gráfico), o chips, para entrenar su modelo DeepSeek-V3, según un documento de investigación que publicaron con el lanzamiento del modelo. Por el contrario, en una llamada de ganancias de Meta en octubre pasado, el CEO Mark Zuckerberg dijo que la compañía estaba entrenando su último modelo de código abierto Llama 4 en un grupo de computadoras con más de 100,000 chips.

"DeepSeek ha sido capaz de hacer proliferar algunos modelos bastante potentes en toda la comunidad", afirma Abraham Daniels, director senior de productos técnicos del modelo Granite de IBM . DeepSeek-R1 se ofrece en Hugging Face bajo una licencia MIT que permite el uso comercial sin restricciones. "DeepSeek realmente podría acelerar la democratización de la IA", dice Daniels.

Recientemente han proliferado publicaciones individuales en LinkedIn promoviendo el uso de DeepSeek en Watson.ai, lo que demuestra una inteligente flexibilidad de los funcionarios de IBM, coherente con su defensa de soluciones de IA completas end-to-end, y responsables, gracias a las capacidades distintivas de Gobernanza de Watson.ai.

Estamos seguros de que en los próximos días, semanas y meses asistiremos a muchas novedades sobre este tema, y estaremos compartiendo nuestro análisis y puntos de vista con nuestros apreciados suscriptores.

José C. Nordmann

Miembro del Consejo Mundial para un Planeta Más Seguro

Miembro de ACFE (Association of Certified Fraud Examiners)

Miembro del Consejo Consultivo Mundial de i2 Group

Chief Compliance Officer (Quanam)

SME en Transformación Digital

Miembro de AUC (Asociación Uruguaya de Compliance)

Miembro Asociado de WCA (World Compliance Association)

Miembro de CUGO (Círculo Uruguayo para la Mejor Gobernanza de las Organizaciones)

https://www.linkedin.com/pulse/ia-las-reglas-de-juego-est%25C3%25A1n-cambiando-jos%25C3%25A9-c-nordmann-yy7zf