En enero, la aparición del programa de inteligencia synthetic R1 de Deepseek provocó una venta de mercado de valores. Siete semanas después, el gigante de Chip Nvidia, la fuerza dominante en el procesamiento de IA, busca ubicarse directamente en el medio de la economía dramática de la IA más barata que representa Deepseek.
El martes, en el SAP Middle en San José, California, el cofundador y CEO de NVIDIA, Jensen Huang, discutió cómo los chips Blackwell de la compañía pueden acelerar dramáticamente Deepseek R1.
También: Google afirma que Gemma 3 alcanza el 98% de la precisión de Deepseek, usando solo una GPU
NVIDIA afirma que sus chips de GPU pueden procesar 30 veces el rendimiento que Deepseek R1 normalmente tendría en un centro de datos, medido por el número de tokens por segundo, utilizando un nuevo software program de código abierto llamado Nvidia Dynamo.
“Dynamo puede capturar ese beneficio y entregar 30 veces más rendimiento en el mismo número de GPU en la misma arquitectura para modelos de razonamiento como Deepseek”, dijo Ian Buck, jefe de computación hiperescala y de alto rendimiento de NVIDIA, en una sesión informativa de los medios antes de la conferencia clave de Huang en la conferencia GTC de la compañía.
El software program Dynamo, disponible hoy en GitHub, distribuye trabajo de inferencia en hasta 1,000 chips de GPU NVIDIA. Se puede realizar más trabajo por segundo del tiempo de la máquina al romper el trabajo para funcionar en paralelo.
El resultado: para una tarea de inferencia con un precio de $ 1 por millón de tokens, se pueden ejecutar más tokens cada segundo, aumentando los ingresos por segundo para los servicios que proporcionan las GPU.
Buck dijo que los proveedores de servicios pueden decidir ejecutar más consultas de clientes en Deepseek o dedicar más procesamiento a un solo usuario para cobrar más por un servicio “premium”.
Servicios premium
“Las fábricas de IA pueden ofrecer un servicio premium más alto al dólar premium por millón de tokens”, dijo Buck, “y también aumentar el volumen whole de tokens de toda su fábrica”. El término “AI Manufacturing facility” es la moneda de NVIDIA para servicios a gran escala que ejecutan un gran volumen de trabajo de IA utilizando los chips, el software program y los equipos basados en rack de la compañía.
NVIDIA DGX Spark y DGX Station.
Nvidia
La posibilidad de usar más chips para aumentar el rendimiento (y, por lo tanto, los negocios) para la inferencia de IA es la respuesta de NVIDIA a las preocupaciones de los inversores de que se utilizaría menos informática en basic porque Deepseek puede reducir la cantidad de procesamiento necesaria para cada consulta.
Al usar Dynamo con Blackwell, el modelo precise de la GPU de IA insignia de NVIDIA, el software program Dynamo puede hacer que dichos centros de datos de IA produzcan 50 veces más ingresos que con el modelo más antiguo, Hopper, dijo Buck.
También: el modelo de IA de Deepseek resulta fácil de jailbreak, y peor
Nvidia ha publicado su propia versión ajustada de Deepseek R1 en Huggingface. La versión NVIDIA scale back el número de bits utilizados por R1 para manipular las variables a lo que se conoce como “FP4” o cuatro bits de punto flotante, que es una fracción de la computación necesaria para el punto flotante estándar 32 o B-Float 16.
“Aumenta el rendimiento de Hopper a Blackwell sustancialmente”, dijo Buck. “Hicimos eso sin ningún cambio significativo o reducción o pérdida del modelo de precisión. Sigue siendo el gran modelo que produce los tokens de razonamiento inteligente”.
Además de Dynamo, Huang dio a conocer la versión más reciente de Blackwell, “Extremely”, siguiendo el primer modelo que se presentó en el present del año pasado. La nueva versión mejora varios aspectos del Blackwell 200 existente, como el aumento de la memoria DRAM desde 192GB de HBM3E Memoria de ancho de alto nivel hasta 288 GB.
También: El CEO de NVIDIA, Jensen Huang, presenta la familia de chips ‘Blackwell’ de próxima generación en GTC
Cuando se combina con el chip de CPU Grace de Nvidia, se pueden ensamblar un whole de 72 Blackwell Ultras en la computadora basada en rack NVL72 de la compañía. El sistema aumentará el rendimiento de inferencia que se ejecuta en FP4 en un 50% sobre el NVL72 existente en función de los chips Grace-Blackwell 200.
Otros anuncios hechos en GTC
La pequeña computadora private para desarrolladores de IA, presentado en CES en enero como Dígitos de proyectoha recibido su marca formal como DGX Spark. La computadora usa una versión del combo Grace-Blackwell llamado GB10. Nvidia está tomando reservas para la chispa a partir de hoy.
Se presentó una nueva versión de la computadora de escritorio DGX “Station”, presentada por primera vez en 2017. El nuevo modelo utiliza el Grace-Blackwell Extremely y vendrá con 784 Gigabytes de DRAM. Ese es un gran cambio de la estación DGX unique, que se basó en las CPU de Intel como el procesador principal del host. La computadora será fabricada por Asus, Boxx, Dell, HP, Lambda y Supermicro, y estará disponible “más adelante este año”.
Además: por qué Mark Zuckerberg quiere redefinir el código abierto tanto
Huang habló sobre una adaptación de los modelos de idiomas grandes de código abierto de Meta, llamado Llama Nemotron, con capacidades para el “razonamiento”; es decir, para producir una cadena de salida que detalla los pasos para una conclusión. Nvidia afirma que los modelos Nemotron “optimizan la velocidad de inferencia por 5x en comparación con otros modelos de razonamiento abiertos líderes”. Los desarrolladores pueden acceder a los modelos en Huggingface.
Switches de purple mejorados
Como se esperaba ampliamente, NVIDIA ha ofrecido por primera vez una versión de su interruptor de purple “Spectrum-X” que coloca al transceptor de fibra óptica dentro del mismo paquete que el chip de conmutación en lugar de usar transceptores externos estándar. Nvidia cube que los conmutadores, que vienen con velocidades de puerto de 200 o 800 GB/seg, mejoran sus interruptores existentes con “3.5 veces más eficiencia energética, 63 veces mayor integridad de señal, 10 veces mejor resistencia a la purple a escala y 1.3 veces más rápida implementación”. Los interruptores se desarrollaron con la fabricación de semiconductores de Taiwán, los fabricantes de láser coherentes y lumentum, fibra de fibra corning y el ensamblador de contrato Foxconn.
NVIDIA está construyendo una instalación de investigación de computación cuántica en Boston que integrará {hardware} cuántico líder con supercomputadoras de IA en asociaciones con cuantinuo, máquinas cuánticas y QUERA. La instalación dará a los socios de Nvidia acceso a los estantes Grace-Blackwell NVL72.
Oracle está haciendo el “software program de microservicios” NIM “NIM” disponible “en la consola de administración del servicio de computación OCI de Oracle para sus clientes en la nube.
Huang anunció nuevos socios que integran el software program Omniverse de la compañía para la colaboración de diseño de productos virtuales, incluidos Accenture, ANSYS, Cadence Design Methods, Databricks, Dematic, Hexagon, Omron, SAP, Schneider Electrical con ETAP y Siemens.
Nvidia dio a conocer a Mega, un diseño de software program “Blueprint” que se conecta al software program Cosmos de Nvidia para simulación, capacitación y pruebas de robots. Entre los primeros clientes, Schaeffler y Accenture están utilizando meta para probar flotas de manos robóticas para tareas de manejo de materiales.
Basic Motors ahora está trabajando con Nvidia en “vehículos, fábricas y robots de próxima generación utilizando Omniverse y Cosmos.
Tarjetas gráficas actualizadas
NVIDIA actualizó su línea de tarjeta gráfica RTX. La RTX Professional 6000 Blackwell Workstation Version proporciona 96 GB de DRAM y puede acelerar tareas de ingeniería, como simulaciones en el software program ANSYS en un 20%. Una segunda versión, el servidor Professional 6000, está destinado a ejecutarse en bastidores de centros de datos. Una tercera versión actualiza RTX en computadoras portátiles.
Además: los chatbots de IA se pueden secuestrar para robar contraseñas de Chrome: una nueva investigación expone defectos
Continuando con el enfoque en “Modelos de base” para Robótica, que Huang discutió por primera vez en CES al revelar Cosmos, reveló el martes un modelo de fundación para robots humanoides llamado Nvidia Isaac Groot N1. Los modelos Groot son pre-entrenados por NVIDIA para lograr el pensamiento “Sistema 1” y “Sistema 2”, una referencia al libro Pensando rápido y lento por el científico cognitivo Daniel Kahneman. El software program se puede descargar desde Huggingface y GitHub.
El gigante de dispositivos médicos GE GE se encuentra entre las primeras partes en utilizar la versión ISAAC para la salud de NVIDIA ISAAC. El software program proporciona un entorno médico simulado que se puede utilizar para capacitar a los robots médicos. Las aplicaciones podrían incluir pruebas operativas de rayos X y ultrasonido en partes del mundo que carecen de técnicos calificados para estas tareas.
Nvidia actualizó su tecnología Nvidia Earth para pronósticos del tiempo con una nueva versión, Blueprint Omniverse para Earth-2. Incluye “flujos de trabajo de referencia” para ayudar a las empresas a prototipos de servicios de predicción del clima, bibliotecas de aceleración de GPU “, un marco de Física-AI, herramientas de desarrollo y microservicios”.
También: la mejor IA para codificar (y qué no usar, incluido Deepseek R1)
Los proveedores de equipos de almacenamiento pueden integrar a los agentes de IA en su equipo a través de una nueva asociación llamada plataforma de datos NVIDIA AI. La asociación significa que los proveedores de equipos pueden optar por incluir GPU de Blackwell en su equipo. Los proveedores de almacenamiento NVIDIA están trabajando con DDN, Dell, Hewlett Packard Enterprise, Hitachi Vantara, IBM, NetApp, Nutanix, Almacenamiento puro, Huge Information y Weka. Se espera que las primeras ofertas de los proveedores estén disponibles este mes.
Nvidia dijo que este es el evento GTC más grande hasta la fecha, con 25,000 asistentes esperados en persona y 300,000 en línea.
¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.