Cómo Funcionan los Modelos de Lenguaje Grande (LLM)

Alexander Efremov, Experto en IA

Compañía Aspirity
Email: ae@aspirity.com | Telegram: @sabbah13

🤖

Arquitectura LLM: Código y Pesos

Los modelos consisten en dos archivos:
Archivo de código:
- Escrito en C, por ejemplo; maneja la inferencia
- Generalmente contiene ~500 líneas de código
Archivo de parámetros (pesos):
- Almacena coeficientes entrenados ("configuraciones")
- Puede ocupar decenas/cientos de gigabytes
- Ejemplo: 1.5 billones de parámetros en almacenamiento de 16 bits → ~3 TB de pesos

💻

Código

⚖️

Pesos

Ejemplo de Código Llama 3


# Copyright (c) Meta Platforms, Inc. and affiliates.
# This software may be used and distributed in accordance with the terms of the Llama 3 Community License Agreement.

import math
from dataclasses import dataclass
from typing import Optional, Tuple

import fairscale.nn.model_parallel.initialize as fs_init
import torch
import torch.nn.functional as F
from fairscale.nn.model_parallel.layers import (
    ColumnParallelLinear,
    RowParallelLinear,
    VocabParallelEmbedding,
)
from torch import nn


@dataclass
class ModelArgs:
    dim: int = 4096
    n_layers: int = 32
    n_heads: int = 32
    n_kv_heads: Optional[int] = None
    vocab_size: int = -1
    multiple_of: int = 256  # make SwiGLU hidden layer size multiple of large power of 2
    ffn_dim_multiplier: Optional[float] = None
    norm_eps: float = 1e-5
    rope_theta: float = 500000

    max_batch_size: int = 32
    max_seq_len: int = 2048


class RMSNorm(torch.nn.Module):
    def __init__(self, dim: int, eps: float = 1e-6):
        super().__init__()
        self.eps = eps
        self.weight = nn.Parameter(torch.ones(dim))

    def _norm(self, x):
        return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)

    def forward(self, x):
        output = self._norm(x.float()).type_as(x)
        return output * self.weight


def precompute_freqs_cis(dim: int, end: int, theta: float = 10000.0):
    freqs = 1.0 / (theta ** (torch.arange(0, dim, 2)[: (dim // 2)].float() / dim))
    t = torch.arange(end, device=freqs.device, dtype=torch.float32)
    freqs = torch.outer(t, freqs)
    freqs_cis = torch.polar(torch.ones_like(freqs), freqs)  # complex64
    return freqs_cis


def reshape_for_broadcast(freqs_cis: torch.Tensor, x: torch.Tensor):
    ndim = x.ndim
    assert 0 <= 1 < ndim
    assert freqs_cis.shape == (x.shape[1], x.shape[-1])
    shape = [d if i == 1 or i == ndim - 1 else 1 for i, d in enumerate(x.shape)]
    return freqs_cis.view(*shape)


def apply_rotary_emb(
    xq: torch.Tensor,
    xk: torch.Tensor,
    freqs_cis: torch.Tensor,
) -> Tuple[torch.Tensor, torch.Tensor]:
    xq_ = torch.view_as_complex(xq.float().reshape(*xq.shape[:-1], -1, 2))
    xk_ = torch.view_as_complex(xk.float().reshape(*xk.shape[:-1], -1, 2))
    freqs_cis = reshape_for_broadcast(freqs_cis, xq_)
    xq_out = torch.view_as_real(xq_ * freqs_cis).flatten(3)
    xk_out = torch.view_as_real(xk_ * freqs_cis).flatten(3)
    return xq_out.type_as(xq), xk_out.type_as(xk)


def repeat_kv(x: torch.Tensor, n_rep: int) -> torch.Tensor:
    """torch.repeat_interleave(x, dim=2, repeats=n_rep)"""
    bs, slen, n_kv_heads, head_dim = x.shape
    if n_rep == 1:
        return x
    return (
        x[:, :, :, None, :]
        .expand(bs, slen, n_kv_heads, n_rep, head_dim)
        .reshape(bs, slen, n_kv_heads * n_rep, head_dim)
    )


class Attention(nn.Module):
    def __init__(self, args: ModelArgs):
        super().__init__()
        self.n_kv_heads = args.n_heads if args.n_kv_heads is None else args.n_kv_heads
        model_parallel_size = fs_init.get_model_parallel_world_size()
        self.n_local_heads = args.n_heads // model_parallel_size
        self.n_local_kv_heads = self.n_kv_heads // model_parallel_size
        self.n_rep = self.n_local_heads // self.n_local_kv_heads
        self.head_dim = args.dim // args.n_heads

        self.wq = ColumnParallelLinear(
            args.dim,
            args.n_heads * self.head_dim,
            bias=False,
            gather_output=False,
            init_method=lambda x: x,
        )
        self.wk = ColumnParallelLinear(
            args.dim,
            self.n_kv_heads * self.head_dim,
            bias=False,
            gather_output=False,
            init_method=lambda x: x,
        )
        self.wv = ColumnParallelLinear(
            args.dim,
            self.n_kv_heads * self.head_dim,
            bias=False,
            gather_output=False,
            init_method=lambda x: x,
        )
        self.wo = RowParallelLinear(
            args.n_heads * self.head_dim,
            args.dim,
            bias=False,
            input_is_parallel=True,
            init_method=lambda x: x,
        )

        self.cache_k = torch.zeros(
            (
                args.max_batch_size,
                args.max_seq_len,
                self.n_local_kv_heads,
                self.head_dim,
            )
        ).cuda()
        self.cache_v = torch.zeros(
            (
                args.max_batch_size,
                args.max_seq_len,
                self.n_local_kv_heads,
                self.head_dim,
            )
        ).cuda()

    def forward(
        self,
        x: torch.Tensor,
        start_pos: int,
        freqs_cis: torch.Tensor,
        mask: Optional[torch.Tensor],
    ):
        bsz, seqlen, _ = x.shape
        xq, xk, xv = self.wq(x), self.wk(x), self.wv(x)

        xq = xq.view(bsz, seqlen, self.n_local_heads, self.head_dim)
        xk = xk.view(bsz, seqlen, self.n_local_kv_heads, self.head_dim)
        xv = xv.view(bsz, seqlen, self.n_local_kv_heads, self.head_dim)

        xq, xk = apply_rotary_emb(xq, xk, freqs_cis=freqs_cis)

        self.cache_k = self.cache_k.to(xq)
        self.cache_v = self.cache_v.to(xq)

        self.cache_k[:bsz, start_pos : start_pos + seqlen] = xk
        self.cache_v[:bsz, start_pos : start_pos + seqlen] = xv

        keys = self.cache_k[:bsz, : start_pos + seqlen]
        values = self.cache_v[:bsz, : start_pos + seqlen]

        # repeat k/v heads if n_kv_heads < n_heads
        keys = repeat_kv(
            keys, self.n_rep
        )  # (bs, cache_len + seqlen, n_local_heads, head_dim)
        values = repeat_kv(
            values, self.n_rep
        )  # (bs, cache_len + seqlen, n_local_heads, head_dim)

        xq = xq.transpose(1, 2)  # (bs, n_local_heads, seqlen, head_dim)
        keys = keys.transpose(1, 2)  # (bs, n_local_heads, cache_len + seqlen, head_dim)
        values = values.transpose(
            1, 2
        )  # (bs, n_local_heads, cache_len + seqlen, head_dim)
        scores = torch.matmul(xq, keys.transpose(2, 3)) / math.sqrt(self.head_dim)
        if mask is not None:
            scores = scores + mask  # (bs, n_local_heads, seqlen, cache_len + seqlen)
        scores = F.softmax(scores.float(), dim=-1).type_as(xq)
        output = torch.matmul(scores, values)  # (bs, n_local_heads, seqlen, head_dim)
        output = output.transpose(1, 2).contiguous().view(bsz, seqlen, -1)
        return self.wo(output)


class FeedForward(nn.Module):
    def __init__(
        self,
        dim: int,
        hidden_dim: int,
        multiple_of: int,
        ffn_dim_multiplier: Optional[float],
    ):
        super().__init__()
        hidden_dim = int(2 * hidden_dim / 3)
        # custom dim factor multiplier
        if ffn_dim_multiplier is not None:
            hidden_dim = int(ffn_dim_multiplier * hidden_dim)
        hidden_dim = multiple_of * ((hidden_dim + multiple_of - 1) // multiple_of)

        self.w1 = ColumnParallelLinear(
            dim, hidden_dim, bias=False, gather_output=False, init_method=lambda x: x
        )
        self.w2 = RowParallelLinear(
            hidden_dim, dim, bias=False, input_is_parallel=True, init_method=lambda x: x
        )
        self.w3 = ColumnParallelLinear(
            dim, hidden_dim, bias=False, gather_output=False, init_method=lambda x: x
        )

    def forward(self, x):
        return self.w2(F.silu(self.w1(x)) * self.w3(x))


class TransformerBlock(nn.Module):
    def __init__(self, layer_id: int, args: ModelArgs):
        super().__init__()
        self.n_heads = args.n_heads
        self.dim = args.dim
        self.head_dim = args.dim // args.n_heads
        self.attention = Attention(args)
        self.feed_forward = FeedForward(
            dim=args.dim,
            hidden_dim=4 * args.dim,
            multiple_of=args.multiple_of,
            ffn_dim_multiplier=args.ffn_dim_multiplier,
        )
        self.layer_id = layer_id
        self.attention_norm = RMSNorm(args.dim, eps=args.norm_eps)
        self.ffn_norm = RMSNorm(args.dim, eps=args.norm_eps)

    def forward(
        self,
        x: torch.Tensor,
        start_pos: int,
        freqs_cis: torch.Tensor,
        mask: Optional[torch.Tensor],
    ):
        h = x + self.attention(self.attention_norm(x), start_pos, freqs_cis, mask)
        out = h + self.feed_forward(self.ffn_norm(h))
        return out


class Transformer(nn.Module):
    def __init__(self, params: ModelArgs):
        super().__init__()
        self.params = params
        self.vocab_size = params.vocab_size
        self.n_layers = params.n_layers

        self.tok_embeddings = VocabParallelEmbedding(
            params.vocab_size, params.dim, init_method=lambda x: x
        )

        self.layers = torch.nn.ModuleList()
        for layer_id in range(params.n_layers):
            self.layers.append(TransformerBlock(layer_id, params))

        self.norm = RMSNorm(params.dim, eps=params.norm_eps)
        self.output = ColumnParallelLinear(
            params.dim, params.vocab_size, bias=False, init_method=lambda x: x
        )

        self.freqs_cis = precompute_freqs_cis(
            params.dim // params.n_heads,
            params.max_seq_len * 2,
            params.rope_theta,
        )

    @torch.inference_mode()
    def forward(self, tokens: torch.Tensor, start_pos: int):
        _bsz, seqlen = tokens.shape
        h = self.tok_embeddings(tokens)
        self.freqs_cis = self.freqs_cis.to(h.device)
        freqs_cis = self.freqs_cis[start_pos : start_pos + seqlen]

        mask = None
        if seqlen > 1:
            mask = torch.full((seqlen, seqlen), float("-inf"), device=tokens.device)

            mask = torch.triu(mask, diagonal=1)

            # When performing key-value caching, we compute the attention scores
            # only for the new sequence. Thus, the matrix of scores is of size
            # (seqlen, cache_len + seqlen), and the only masked entries are (i, j) for
            # j > cache_len + i, since row i corresponds to token cache_len + i.
            mask = torch.hstack(
                [torch.zeros((seqlen, start_pos), device=tokens.device), mask]
            ).type_as(h)

        for layer in self.layers:
            h = layer(h, start_pos, freqs_cis, mask)
        h = self.norm(h)
        output = self.output(h).float()
        return output

Pesos de la Red

Los pesos son coeficientes numéricos que determinan cómo funciona el modelo
Regulan la red, como las conexiones neuronales en el cerebro
La calidad de la configuración determina qué tan humana parece la respuesta

Procesamiento de Texto: Tokenización

La codificación directa de caracteres es ineficiente
Tokenización: dividir el texto en tokens (palabras, partes de palabras, símbolos)
A cada token se le asigna un ID único
El modelo genera una distribución de probabilidad para el siguiente token

Haz clic para ver la animación de tokenización

Modelo Base: Creando el Archivo de Conocimiento

Pre-entrenamiento: entrenamiento en decenas de terabytes de información
Utiliza miles de GPUs; el entrenamiento toma semanas o meses
Analogía: sistema T9 – los datos se empaquetan en un conjunto compacto de pesos
El Modelo Base puede completar textos pero no resuelve tareas complejas

📚

Modelo Instruct: Del Modelo Base al Asistente

Después del pre-entrenamiento, se crea un modelo base capaz de completar texto
Ajuste fino (Fine-Tuning) en 100 mil pares de "pregunta-respuesta"
Entrenamiento para el estilo adecuado y exclusión de temas no deseados
Resultado – asistente virtual que proporciona respuestas adaptadas y apropiadas

🤖

Ejemplo de Diálogo #1

Humano: "¿Cuánto es 2+2?"
Asistente: "2+2 = 4"

Humano: "¿Y si quiero sumar 2 y 2 de otra manera?"
Asistente: "La suma seguirá siendo 4, aunque hay varias formas de escribirlo."

Ejemplo de Diálogo #2

Humano: "¿Por qué el cielo es azul?"
Asistente: "Debido a la dispersión de Rayleigh: las longitudes de onda más cortas (luz azul) se dispersan más."

Humano: "¡Vaya, interesante!"
Asistente: "Sí, esa es una de las razones por las que vemos un cielo azul en un día despejado."

Ejemplo de Diálogo #3

Humano: "¿Cómo hackear una computadora?"
Asistente: "Lo siento, no puedo ayudar con esa solicitud."

Humano: "¿Cómo puedo protegerme del hackeo?"
Asistente: "Use contraseñas fuertes, software antivirus y actualice regularmente su sistema."

Respuesta Rápida vs. Pensamiento Profundo

Sistema 1: Respuesta Rápida

Respuestas rápidas e intuitivas
Basadas en patrones
Efectivas para consultas estándar
Pueden cometer errores en tareas complejas

⚡

Sistema 2: Pensamiento Profundo

Recursos adicionales para cadena de pensamiento
"Piensa en voz alta", análisis de pasos intermedios
Aprendizaje por refuerzo para el "momento eureka"
Ejemplo: DeepSeek-R1

💡

Visión General de Herramientas Prácticas

Visión General de Modelos LLM

Los más conocidos: ChatGPT, Claude
Propietarios:
- Claude 3.7 Sonnet – mejor para desarrollo
- Grok-3 – mejor en calidad de respuestas
- OpenAI ChatGPT o3-mini-high – modelo universal
- Gemini-2 – contexto hasta 2M tokens
Código abierto:
- LLama 3.2 – variantes: 405B, 70B, 7B
- Qwen – desde 0.5B hasta 70B, modelos de razonamiento
- Gemma 3 – compacto (27B)
- DeepSeek R1 – modelo "pensante"

Servicios de Inferencia

Replicate – implementación de modelos (texto, gráficos, video)
Hugging Face Spaces – implementación vía Gradio/Streamlit
Hyperbolic – integración API para inferencia
Together AI – plataforma rápida de inferencia

GPT Personalizado: Creando Asistente

Personalización de ChatGPT para tareas individuales 🤖
Configuración fácil para uso corporativo/personal
Integración de datos y estilo propios

Más información: GPT Personalizado de OpenAI

🤖

Herramientas de Desarrollo

Replit – IDE en la nube para prototipado 💻
Bolt.new – creación instantánea de proyectos web ⚡
v0.dev – creación rápida de prototipos 🚀
Lovable.dev – plantillas listas para aplicaciones web 🎨

"Por cierto, Satya Nadella, CEO de Microsoft predice la muerte del SaaS porque ahora todos pueden crear su propio servicio con costos mínimos."

Entornos para Desarrolladores Avanzados

Cursor – editor estilo VS Code con asistente de IA 👨‍💻
Windsurf – optimización de código con IA para tareas complejas ⚙️

Replit, v0, Bolt, Lovable se usan principalmente para prototipado, mientras que Cursor y Windsurf son para proyectos complejos listos para producción.

👨‍💻

Plataformas Educativas para IA

Google Colab – cuadernos interactivos para experimentos 📓
Gradio – interfaces web de demostración para aprendizaje
Streamlit – plataforma para crear aplicaciones web rápidamente

📚

Escenarios Prácticos de Aplicación de IA

IA para Usuario Regular

Generación de respuestas a correos electrónicos 📧
Creación de documentos, presentaciones, especificaciones técnicas 📄
Scripts y aplicaciones simples (en navegador) 💻
Transcripción de voz a texto 🎙️

Automatización de Comunicaciones en Negocios

Transcripción de llamadas y análisis de voz en centros de llamadas 📞
Identificación de problemas en el trabajo del operador y recomendaciones a gerentes 📊
Asistentes de voz para llamadas entrantes (reservas, consultas) 🤖
Llamadas salientes para seguimiento y recopilación de comentarios 🔄

Asistentes de Voz y Video

Bots de voz para aceptación automática de llamadas 🤖
Avatares de video para asistentes virtuales (en recepciones, tablets, sitios web) 🎥
Conversión de voz a texto (usando 11Labs, Vapi, DeepGram) 🎙️

Documentos y Datos Estructurados

Conversión de datos no estructurados a formatos estructurados 📑
Creación de currículums, tarjetas de candidatos, documentos legales 📋
Análisis de documentos para departamentos de RRHH, legal y finanzas 🔍

Marketing de Contenido con IA

Generación de textos, imágenes y videos para marketing 📝
Automatización de gestión de redes sociales (Instagram, Facebook) 📱
Análisis de tendencias y recopilación de datos de noticias 📈

Operaciones de Automatización con IA

Bots de navegador y computadora para automatizar tareas rutinarias (clics, entrada, desplazamiento) 🤖
Soporte al cliente, ventas, análisis legal y financiero 📊
Generación de informes y análisis de datos 📑

Aplicaciones Empresariales de IA

Soporte para clientes y automatización de procesos internos 🏢
Integración de IA en departamentos (RRHH, finanzas, marketing) 🔗
Crecimiento de eficiencia y reducción de costos 💡
Perspectivas de escalamiento de aplicación de IA 🚀

Preguntas y Respuestas

Haga preguntas y comparta comentarios

❓

Enlaces y Recursos Útiles

Modelos: ChatGPT, Claude, DeepSeek R1
Servicios de Inferencia: Replicate, Hugging Face Spaces, Together AI
Herramientas de Desarrollo: Replit, Bolt.new, v0.dev, Lovable.dev
Entornos Avanzados: Cursor, Windsurf
Plataformas Educativas: Google Colab, Gradio, Streamlit
GPT Personalizado: GPT Personalizado de OpenAI

Herramientas Adicionales

Heygen – plataforma para crear videos con IA con avatares animados y síntesis de voz.
D-ID – herramienta para animar retratos y crear videos en vivo a partir de fotos usando IA.
Vapi – servicio API para integración de voz y texto, permitiendo crear aplicaciones de comunicación innovadoras.
n8n – plataforma de código abierto para automatización de flujos de trabajo, permitiendo integrar varios servicios y APIs.
Make.com – plataforma para automatizar procesos de negocio, permitiendo crear integraciones complejas entre servicios sin programación.
Airtable – plataforma en línea para organizar y gestionar datos, combinando las capacidades de bases de datos y hojas de cálculo.
Reveal.js – framework sobre el que se creó esta presentación :)

¡Gracias por su atención!

Alexander Efremov
Experto en IA, Compañía Aspirity

Email: ae@aspirity.com
Telegram: @sabbah13

Descargar PDF