Teoría de la información
Teoría de la información | |
---|---|
rama de la ciencia y disciplina académica | |
teoría matemática (es) | |
La teoría de la información, tamién conocida como teoría matemática de la comunicación (Inglés: mathematical theory of communication) o teoría matemática de la información, ye una propuesta teórica presentada por Claude E. Shannon y Warren Weaver a finales de la década de los años 1940. Esta teoría ta rellacionada coles lleis matemátiques que rixen la tresmisión y el procesamientu de la información y ocúpase de la midida de la información y de la representación de la mesma, según tamién de la capacidá de los sistemes de comunicación pa tresmitir y procesar información.[1] La teoría de la información ye una caña de la teoría matemática y de les ciencies de la computación qu'estudia la información y tou lo rellacionao con ella: canales, compresión de datos y criptografía, ente otros.
Historia
[editar | editar la fonte]La teoría de la información surdió a finales de la Segunda Guerra Mundial, nos años cuarenta. Foi empecipiada por Claude E. Shannon al traviés d'un artículu publicáu nel Bell System Technical Journal en 1948, tituláu Una teoría matemática de la comunicación (testu completu n'inglés). Nesta dómina buscábase utilizar de manera más eficiente les canales de comunicación, unviando una cantidá d'información por una determinada canal y midiendo la so capacidá; buscábase la tresmisión óptima de los mensaxes. Esta teoría ye la resultancia de trabayos empezaos na década 1910 por Andrei A. Markovi, a quien lu siguió Ralp V. L. Hartley en 1927, quien foi'l precursor del llinguaxe binariu. De la mesma, Alan Turing en 1936, realizó l'esquema d'una máquina capaz de tratar información con emisión de símbolos, y finalmente Claude Elwood Shannon, matemáticu, inxenieru electrónicu y criptógrafo estauxunidense, conocíu como "el padre de la teoría de la información”, xunto a Warren Weaver, contribuyó na culminación y l'asentamientu de la Teoría Matemática de la Comunicación de 1949 –que güei ye mundialmente conocida por toos como la Teoría de la Información-. Weaver consiguió da-y un algame cimeru al planteamientu inicial, creando un modelu simple y llinial: Fonte/codificador/mensaxe canal/decodificador/destín. La necesidá d'una base teórica pa la teunoloxía de la comunicación surdió del aumentu de la complexidá y de la masificación de les víes de comunicación, tales como'l teléfonu, les redes de teletipu y los sistemes de comunicación por radio. La teoría de la información tamién toma toles restantes formes de tresmisión y almacenamientu d'información, incluyendo la televisión y los impulsos llétricos que se tresmiten nos ordenadores y na grabación óptica de datos ya imáxenes. La idea ye garantizar que'l tresporte masivu de datos nun sía de nenguna manera una amenorga de la calidá, inclusive si los datos estruyir de dalguna manera. Idealmente, los datos pueden restaurase a la so forma orixinal al llegar al so destín. En dellos casos, sicasí, l'oxetivu ye dexar que los datos de dalguna forma convertir pa la tresmisión en masa, recibir nel puntu de destín y sían convertíos fácilmente al so formatu orixinal, ensin perder nenguna de la información tresmitida.[2]
Desenvolvimientu de la teoría
[editar | editar la fonte]El modelu propuestu por Shannon ye un sistema xeneral de la comunicación que parte d'una fonte d'información dende la cual, al traviés d'un tresmisor, emítese una señal, que viaxa por una canal, pero a lo llargo del so viaxe puede ser interferida por dalgún ruiu. La señal sale de la canal, llega a un receptor que decodifica la información convirtiéndola darréu en mensaxe que pasa a un destinatario. Col modelu de la teoría de la información tratar de llegar a determinar la forma más económica, rápida y segura de codificar un mensaxe, ensin que la presencia de dalgún ruiu complique la so tresmisión. Pa esto, el destinatario tien d'entender la señal correutamente; el problema ye qu'anque esista un mesmu códigu pel mediu, esto nun significa que'l destinatario va captar el significáu que l'emisor quixo da-y al mensaxe. La codificación puede referise tanto al tresformamientu de voz o imaxe en señales llétriques o electromagnétiques, como al cifráu de mensaxes p'asegurar la so privacidá. Un conceutu fundamental na teoría de la información ye que la cantidá d'información contenida nun mensaxe ye un valor matemáticu bien definíu y medible. El términu cantidá nun se refier a la cuantía de datos, sinón a la probabilidá de qu'un mensaxe, dientro d'un conxuntu de mensaxes posibles, sía recibíu. No que se refier a la cantidá d'información, el valor más alto asígnase-y al mensaxe que menos probabilidaes tien de ser recibíu. Si saber con certidume qu'un mensaxe va ser recibíu, la so cantidá d'información ye cero.[3]
Finalidá
[editar | editar la fonte]Otru aspeutu importante dientro d'esta teoría ye la resistencia a la distorsión que provoca'l ruiu, la facilidá de codificación y descodificación, según la velocidá de tresmisión. Ye por esto que se diz que'l mensaxe tien munchos sentíos, y el destinatario estrayi'l sentíu que tien d'atribuyi-y al mensaxe, siempres y cuando haya un mesmu códigu de mancomún. La teoría de la información tien ciertes llimitaciones, como lo ye l'acepción del conceutu del códigu. El significáu que quier tresmitise nun cunta tanto como'l númberu d'alternatives necesariu pa definir el fechu ensin ambigüedá. Si la seleición del mensaxe plantégase namái ente dos alternatives distintos, la teoría de Shannon postula arbitrariamente que'l valor de la información ye unu. Esta unidá d'información recibe'l nome de bit. Por que el valor de la información sía un bit, toles alternatives tienen de ser igual de probables y tar disponibles. Ye importante saber si la fonte d'información tien el mesmu grau de llibertá pa escoyer cualquier posibilidá o si topar so dalguna influencia que la induz a una cierta eleición. La cantidá d'información crez cuando toles alternatives son igual de probables o cuanto mayor sía'l númberu d'alternatives. Pero na práutica comunicativa real non toles alternatives son igualmente probables, lo cual constitúi un tipu de procesu estocástico denomináu Markoff. El subtipo de Markoff diz que la cadena de símbolos ta configurada de manera que cualquier secuencia d'esa cadena ye representativa de tola cadena completa.
Teoría aplicada a la teunoloxía
[editar | editar la fonte]La Teoría de la Información atópase entá anguaño en rellación con una de les teunoloxíes en boga, Internet. Dende'l puntu de vista social, Internet representa unos significativos beneficios potenciales, yá que ufierta oportunidaes ensin precedentes pa dar poder a los individuos y conectalos con fontes cada vez más riques d'información dixital. Internet foi creáu a partir d'un proyeutu del departamentu de defensa de los Estaos Xuníos llamáu ARPANET (Advanced Research Projects Agency Network) empecipiáu en 1969 y que'l so propósitu principal yera la investigación y desenvolvimientu de protocolo de comunicación pa redes d'área amplia p'amestar redes de tresmisión de paquetes de distintos tipos capaces d'aguantar les condiciones d'operación más difíciles, y siguir funcionando entá cola perda d'una parte de la rede (por casu en casu de guerra). Estes investigaciones dieron como resultáu'l protocolu TCP/IP (Transmission Control Protocol/Internet Protocol), un sistema de comunicaciones bien sólidu y robezu sol cual intégrense toles redes que conformen lo que se conoz anguaño como Internet. La enorme crecedera d'Internet deber en parte a que ye una rede basada en fondos gubernamentales de cada país que forma parte d'Internet, lo qu'apurre un serviciu práuticamente gratuitu. A principios de 1994 empezó a dase una crecedera esplosiva de les compañíes con propósitos comerciales n'Internet, dando asina orixe a una nueva etapa nel desenvolvimientu de la rede. Descritu a les traces, TCP/IP mete en paquetes la información que quier unviase y la saca de los paquetes pa utilizala cuando se recibe. Estos paquetes pueden comparase con sobres de corréu; TCP/IP guarda la información, cierra'l sobre y na parte esterior pon la direición a la cual va empobinada y la direición de quien la unvia. Por aciu esti sistema, los paquetes viaxen al traviés de la rede hasta que lleguen al destín deseyáu; una vegada ende, l'ordenador de destín quita'l sobre y procesa la información; en casu de ser necesariu unvia una respuesta al ordenador d'orixe usando'l mesmu procedimientu. Cada máquina que ta coneutada a Internet tien una direición única; esto fai que la información que s'unvia nun equivocar el destín. Esisten dos formes de dar direiciones, con lletres o con númberos. Realmente, los ordenadores utilicen les direiciones numbériques pa mandar paquetes d'información, pero les direiciones con lletres fueron implementaes pa facilitar el so manexu a los seres humanos. Una direición numbérica ta compuesta por cuatro partes. Caúna d'estes partes ta estremada por puntos.
Exemplu: sedet.com.mx 107.248.185.1
Una de les aplicaciones de la teoría de la información son los archivos ZIP, documentos que s'estrúin pa la so tresmisión al traviés de corréu electrónicu o como parte de los procedimientos d'almacenamientu de datos. La compresión de los datos fai posible completar la tresmisión en menos tiempu. Nel estremu receptor, un software utilizar pa la lliberación o descompresión del archivu, restaurando los documentos conteníos nel archivu ZIP al so formatu orixinal. La teoría de la información tamién entra n'usu con otros tipos d'archivu; por casu, los archivos d'audiu y videu que se reproducen nun reproductor de MP3 / MP4 s'estrúin pa una fácil descarga y almacenamientu nel dispositivu. Cuando s'apuerta a los archivos se descomprimen por que tean darréu disponibles pal so usu.[4]
Elementos de la teoría
[editar | editar la fonte]Fonte
[editar | editar la fonte]Una fonte ye tou aquello qu'emite mensaxes. Por casu, una fonte puede ser un ordenador y mensaxes los sos archivos; una fonte puede ser un dispositivu de tresmisión de datos y mensaxes los datos unviaos, etc. Una fonte ye en sí mesma un conxuntu finito de mensaxes: tolos posibles mensaxes que puede emitir dicha fonte. En compresión de datos va tomase como fonte l'archivu a estruyir y como mensaxes los calteres que conformen dichu archivu.
Tipos de fonte
[editar | editar la fonte]Pola naturaleza xenerativa de los sos mensaxes, una fonte puede ser aleatoria o determinista. Pola rellación ente los mensaxes emitíos, una fonte puede ser estructurada o non estructurada (o caótica).
Esisten dellos tipos de fonte. Pa la teoría de la información interesen les fontes aleatories y estructuradas. Una fonte ye aleatoria cuando nun ye posible predicir cuál ye'l próximu mensaxe a emitir pola mesma. Una fonte ye estructurada cuando tien un ciertu nivel de redundancia; una fonte non estructurada o d'información pura ye aquella en que tolos mensaxes son absolutamente aleatorios ensin rellación dalguna nin sentíu aparente. Esti tipu de fonte emite mensaxes que nun se pueden estruyir; un mensaxe, pa poder ser estruyíu, tien de tener un ciertu grau de redundancia; la información pura nun puede ser estruyida ensin qu'haya una perda de conocencia sobre'l mensaxe.[5]
Mensaxe
[editar | editar la fonte]Un mensaxe ye un conxuntu de ceros y unos. Un archivu, un paquete de datos que viaxa por una rede y cualquier cosa que tenga una representación binaria puede considerase un mensaxe. El conceutu de mensaxe aplícase tamién a alfabetos de más de dos símbolos, pero por cuenta de que tratamos con información dixital vamos referinos casi siempres a mensaxes binarios.
Códigu
[editar | editar la fonte]Un códigu ye un conxuntu d'unos y ceros que s'usen pa representar un ciertu mensaxe d'alcuerdu a regles o convenciones preestablecidas. Por casu, al mensaxe 0010 podemos representar col códigu 1101 usáu pa codificar la función (NOT). La forma na cual codificamos ye arbitraria. Un mensaxe puede, en dellos casos, representase con un códigu de menor llargor que'l mensaxe orixinal. Supongamos qu'a cualquier mensaxe S lo codificamos usando un ciertu algoritmu de forma tal que cada S ye codificado en L(S) bits; definimos entós la información contenida nel mensaxe S como la cantidá mínima de bits necesarios pa codificar un mensaxe.
Información
[editar | editar la fonte]La información contenida nun mensaxe ye proporcional a la cantidá de bits que se riquir a lo menos pa representar al mensaxe. El conceutu d'información puede entendese más fácilmente si consideramos un exemplu. Supongamos que tamos lleendo un mensaxe y lleímos "cadena de c"; la probabilidá de que'l mensaxe siga con "calteres" ye bien alta. Asina, cuando efeutivamente recibimos de siguío "calteres" la cantidá d'información que nos llegó ye bien baxa pos tábamos en condiciones de predicir qué yera lo que diba asoceder. L'escurrimientu de mensaxes d'alta probabilidá d'apaición apurre menos información que l'escurrimientu de mensaxes menos probables. Si depués de "cadena de c" lleemos "himichurri" la cantidá d'información que tamos recibiendo ye enforma mayor.
Entropía ya información
[editar | editar la fonte]La información ye tratada como magnitú física, caracterizando la información d'una secuencia de símbolos utilizando la entropía. Ye parte de la idea de que les canales nun son ideales, anque munches vegaes idealicen les non linealidades, pa estudiar diversos métodos d'unviada d'información o la cantidá d'información útil que pueda unviase al traviés d'una canal.
La información necesaria pa especificar un sistema físicu tien que ver cola so entropía. En concretu, en ciertes árees de la física, estrayer información del estáu actual d'un sistema rique amenorgar la so entropía, de tal manera que la entropía del sistema () y la cantidá d'información () extraíble tán rellacionaes por:
Entropía d'una fonte
[editar | editar la fonte]D'alcuerdu a la teoría de la información, el nivel d'información d'una fonte puede midise según la entropía de la mesma. Los estudios sobre la entropía son de suma importancia na teoría de la información y débense principalmente a C. E. Shannon. Esiste, de la mesma, un gran númberu de propiedaes respeuto de la entropía de variables aleatories debíes a A. Kolmogorov. Dada una fonte F qu'emite mensaxes, resulta frecuente reparar que los mensaxes emitíos nun resulten equiprobables sinón que tienen una cierta probabilidá d'escurrimientu dependiendo del mensaxe. Pa codificar los mensaxes d'una fonte vamos intentar pos utilizar menor cantidá de bits pa los mensaxes más probables y mayor cantidá de bits pa los mensaxes menos probables, de forma tal que'l permediu de bits utilizaos pa codificar los mensaxes sía menor a la cantidá de bits permediu de los mensaxes orixinales. Esta ye la base de la compresión de datos. A esti tipu de fonte denominar fonte d'orde-0, pos la probabilidá d'escurrimientu d'un mensaxe nun depende de los mensaxes anteriores. A les fontes d'orde cimeru puede representar por aciu una fonte d'orde-0 utilizando téuniques de modelización apropiaes. Definimos la probabilidá d'escurrimientu d'un mensaxe nuna fonte como la cantidá d'apaiciones de dichu mensaxe estremáu ente'l total de mensaxes. Supongamos que Pi ye la probabilidá d'escurrimientu del mensaxe-i d'una fonte, y supongamos que Li ye'l llargor del códigu utilizáu pa representar a dichu mensaxe. El llargor permediu de tolos mensaxes codificados de la fonte puede llograse como:
- Permediu ponderáu de los llargores de los códigos d'alcuerdu a les sos probabilidaes d'escurrimientu, al númberu H denominar "Entropía de la fonte" y tien gran importancia. La entropía de la fonte determina'l nivel de compresión que podemos llograr a lo más pa un conxuntu de datos, si consideramos como fonte a un archivu y llogramos les probabilidaes d'escurrimientu de cada calter nel archivu vamos poder calcular el llargor permediu del archivu estruyíu, demuéstrase que nun ye posible estruyir estadísticamente un mensaxe/archivo más allá de la so entropía. Lo cual implica que considerando namái la frecuencia d'apaición de cada calter la entropía de la fonte danos la llende teórica de compresión, por aciu otres téuniques non-estadístiques puede, seique, superase esta llende.
- L'oxetivu de la compresión de datos ye atopar los Li qu'embriven a H, amás los Li tienen de determinase en función de los Pi, pos el llargor de los códigos tien de depender de la probabilidá d'escurrimientu de los mesmos (los más alvertíos queremos codificarlos en menos bits). Plantégase pos:
A partir d'equí y tres entrevesgaos procedimientos matemáticos que fueron demostraos por Shannon a propósito llégase a que H ye mínimu cuando f(Pi) = log2 (1/Pi). Entós:
El llargor mínimu cola cual puede codificarse un mensaxe puede calculase como Li=log2(1/Pi) = -log2(Pi). Esto da una idea del llargor a emplegar nos códigos a usar pa los calteres d'un archivu en función de la so probabilidá d'escurrimientu. Reemplazando Li podemos escribir H como:
D'equí deduzse que la entropía de la fonte depende namái de la probabilidá d'escurrimientu de cada mensaxe de la mesma, por ello la importancia de los compresores estadísticos (aquellos que se basen na probabilidá d'escurrimientu de cada calter). Shannon demostró, a propósito que nun ye posible estruyir una fonte estadísticamente más allá del nivel indicáu pola so entropía. [6][7]
Otros aspeutos de la teoría
[editar | editar la fonte]- Compresión de datos
- Codificación de fonte
- Códigos non-singulares
- Códigos unívocamente decodificables
- Código prefijo (o códigos instantáneos)