En 1948 un ingeniero llamado Claude Shannon (“the most important man you’ve probably never heard of”, según el vídeo que acompaña a esta entrada y que te recomiendo si no conoces a Shannon) publicó “A mathematical theory of communication”, un artículo llamado a poner orden en el incipiente mundo de las telecomunicaciones, que en ese momento se movía un poco por la prueba-error y cuyas aplicaciones prácticas eran muy poco eficientes.
Matemáticas para modelar la realidad
Shannon tuvo la ocurrencia de modelar matemáticamente el esquema clásico de comunicación. Te sonará del colegio: emisor, canal y receptor. Y lo bueno que tienen las matemáticas es que te responden: una vez has establecido cuáles son los objetos con los que vas a tratar y las reglas del juego, puedes empezar a averiguar propiedades sobre tu sistema para después explotarlas en La Realidad™.
En concreto, Shannon modeló el emisor como una fuente de información con un alfabeto sobre el cual se define una distribución de probabilidad, y modeló el canal como la señal del emisor sumada a un ruido aleatorio.
Que el emisor estuviera modelado así significaba que daba igual lo que se estuviera enviando, ya que cualquier emisor podía verse como una fuente de información con una determinada probabilidad de emitir uno u otro símbolo de su alfabeto. Daba igual que el alfabeto fueran letras, píxeles, sonidos,… cualquier señal podía entenderse bajo esta naturaleza probabilística.
Naturaleza probabilística de la información: entropía
Para hacerte una pequeñísima idea de por dónde van los tiros, te propongo que intentes adivinar la letra que falta en esta palabra: “qu_”. La “e”, ¿no? ¿Y cómo lo has sabido? Porque gracias a la información previa (la “q”, la “u” y el hecho de que este es un post en español) tu cabeza ha estimado que lo más probable es que venga una “e”. Igualmente, si en una foto hay 5 píxeles con una tonalidad de verde, hay una probabilidad alta de que el siguiente también sea un tono verde ya que quizá esa parte de la foto se trate de un árbol. Incluso en un vídeo la probabilidad de que un mismo píxel no cambie demasiado de un frame al siguiente es bastante alta.
Esto dio lugar a toda una teoría de compresión de datos, ya que si sabemos cuáles símbolos son más probables, utilizaremos menos bits para codificarlos (y viceversa). Esta idea está fuertemente ligada al concepto de entropía, que nos da el límite de compresión de esa fuente de información dada su distribución de probabilidad, y de hecho es la idea detrás de cualquier algoritmo de compresión (zip, rar, jpg, mp3, y un larguísimo etcétera).
¿Cuánta información puede enviarse? La Capacidad de Canal
Pero lo que realmente puso patas arriba el mundo de las comunicaciones fue modelar el canal. Por el canal viaja la señal del emisor, pero por el camino se le añade un ruido que dificultará al receptor su comprensión. No está de más darse cuenta de que esto sucede siempre que hay comunicación: cuando hablamos con alguien hay ruido en el ambiente (aunque sea mínimo), cuando hablamos por teléfono también se suma ruido eléctrico a nuestra señal, y así absolutamente con todo: tener canal significa tener ruido.
Este problema trajo de cabeza a los ingenieros que se dedicaban a las comunicaciones en aquella época. Una forma de contrarrestarlo era por ejemplo repetir cada símbolo muchísimas veces. Así, para mandar la palabra HOLA, se mandaba 100 veces cada letra, y por tanto aunque hubiera errores se podía recuperar la palabra. Y si con 100 no era suficiente, pues se mandaban 1000 y a otra cosa. Otro ejemplo es el alfabeto radiofónico: para deletrear HOLA se dice «hotel, óscar, lima, alfa». Este alfabeto consiste en transformar las letras a palabras que están muy separadas fonéticamente entre sí y es claramente una mejor aproximación al problema que repetir cada letra muchas veces. De hecho, la clave de la codificación de canal es intentar precisamente transformar tus símbolos a una constelación en la que queden lo más separado posible entre sí para que el ruido les afecte lo menos posible, intentando siempre que la constelación sea lo más pequeña posible para no desperdiciar recursos.
Así que Shannon se centró en estudiar el ruido. El ruido es aleatorio y puede aparecer en cualquier momento, pero también pueden estudiarse sus propiedades estadísticas. Shannon supo tomar ventaja de ellas y bautizó el concepto de capacidad de canal, que da una idea de cuánta información puede transmitirse por ese canal y depende únicamente del ancho de banda del canal y de la relación señal a ruido.
No obstante, la capacidad de canal es un valor óptimo. Es decir, Shannon te dice: «tú dime las propiedades de tu canal que yo te digo cuánto vas a poder enviar por ahí como máximo», pero no te dice qué tienes que hacer para conseguir ese máximo. Esto hizo estallar una carrera para alcanzar ese límite, de la cual nace toda la teoría de la codificación gracias a la cual hoy tienes alta velocidad de internet en casa y gracias a la cual un CD rayado sigue escuchándose.
Datos vs. conocimiento
Y todo esto lo consiguió un señor llamado Claude Shannon al que se le ocurrió modelar un emisor como una fuente de probabilidades y un canal como una señal con un ruido añadido, y después simplemente se dejó llevar por los desarrollos matemáticos.
Esto es como para pararse a pensar un minuto. Primero por lo ingenioso de modelar así la comunicación, porque es realmente un modelo que no deja fuera ningún caso: es sencillo y sin embargo muy general. Y segundo porque nos demuestra lo poderosas que son las matemáticas para modelar nuestra realidad: si defines bien tus entidades y las reglas del juego pueden llevarte a descubrimientos que cambian el curso de la humanidad.
Sin embargo, Shannon dejó claro que cuando él hablaba de información no tendría en cuenta su significado. En las primeras líneas de su famoso artículo de 1948 encontramos:
Frequently the messages have meaning; that is they refer to or are correlated according to some system with certain physical or conceptual entities. These semantic aspects of communication are irrelevant to the engineering problem.
Gracias a Shannon la humanidad dominó la transmisión de información, y por el camino aprendimos a ver la información de forma más homogénea, aprendimos que cualquier tipo de información es información. Pero no sólo eso: como padre de la Teoría de la Información, también se le pueden atribuir avances en todo lo que tenga que ver con su tratamiento, como por ejemplo la criptografía.
Sin embargo parece que la época dorada de Shannon ya ha terminado. Hemos conseguido dominar y domar a la información; sabemos codificarla sea lo que sea, sabemos comprimirla, sabemos transmitirla y sabemos almacenarla. ¿Cuál es el siguiente paso natural? Aprender a convertir la información en conocimiento útil. Este es precisamente el punto de partida del aprendizaje automático.