2003-04-02

Orden, desorden, y sus usos creativos

Esta entrada está motivada por Spam Filtering with gzip en Kuro5hin, y por GZipping Life Forms: Deflate Reveals Bare-Bones en Slashdot, donde se hacía referencia al artículo File Compression: New Tool for Life Detection? .

Ustedes que son gente culta ya lo sabían pero déjenme ponerlo por si algún despistado no lo recuerda. Algunos programas que comprimen basan su estrategia en encontrar patrones que se repiten; a cada uno de estos patrones le ponen un identificador, guardan el patrón la primera vez que aparece (o la que convenga, no me hagan mucho caso), y en sucesivas apariciones simplemente tienen que anotar el identificador, con el ahorro de espacio que eso supone, si el patrón es suficientemente grande.

Esa característica de búsqueda de patrones es la que usan los experimentos a los que hago referencia. El primero, para buscar correo basura (spam): tenemos un montón de mensajes que son spam (guardados con un compresor de estos), y otro montón de mensajes que no lo son (guardados comprimidos). Ante la llegada de un nuevo mensaje, lo comprimimos con el fichero de spam, y con el de no spam. ¿Con cuál se obtiene una mejor tasa de reducción del tamaño? Acertaron. Con el spam.

El segundo ejemplo será más del agrado de algunos blogalitas. Tiene que ver con la biología. En este caso se trata de ciertas estructuras fósiles de microorganismos (stromatolites, no se el nombre en nuestro idioma). El problema al que se enfrentan los estudiosos es al de distinguir los verdaderos stromatolites de ciertas rocas que tienen un aspecto similar. La solución viene de una estrategia similar al caso anterior: se pasan las imágenes a un formato adecuado para el computador (TIFF), se comprimen y ....
Acertaron otra vez. Las correspondientes a los microorganismos se comprimen más, por la presencia de patrones comunes.

Para más información sobre el algoritmo de compresión utilizado pueden echar un vistazo en gzip algorithm

Y ahora ... algo completamente diferente.

El lenguaje de los políticos

Anoche había un debate en la 2 sobre la sociedad de la información donde, entre otros, estaba el ministro del ramo, Piqué. Vaya, interesante, piensa uno: en un ambiente no hostil, de debate y reflexión, se dirán cosas interesantes.

La desilusión: cuando los políticos hablan de 'sociedad de la información' no hablan de gente y conocimiento (que es lo que yo entiendo por sociedad e información, respectivamente) para ellos sociedad son las empresas e información tiene que ver con compras por internet y dinero.
Que pena.

¿Estamos todos locos?
Ante todo, mucha calma. Frente una actuación como la de nuestro gobierno actual, el nombre más amable que se me ocurre para ellos es menos agradable que el del puerco. Todavía más, creo que los ciudadanos (y ciudadanas, que diría un político) deberíamos poder hacer algo contra eso. Pero de allí a que en algún pueblo, lejos de donde habitualmente pasa eso, aparezcan las fotos de los políticos del PP con una diana encima hay un trecho, se mire como se mire.




Puedes enterarte de las notas nuevas en: @reflexioneseir (Twitter), Reflexiones e Irreflexiones (Página de Facebook), Reflexiones e Irreflexiones (Canal de Telegram), fernand0 (en LinkedIn), @fernand0 (en Medium), Mastodon.

2003-04-02 18:04 | 4 Comentarios | In English, please | En PDF | Para enlazar # |
| Compartir/Share | por correo | en Twitter | en LinkedIn | en Facebook | en Google+ | en Delicious |

Referencias (TrackBacks)

URL de trackback de esta historia http://fernand0.blogalia.com//trackbacks/6761

Comentarios

1
De: Ctugha Fecha: 2003-04-02 18:22

Curioso lo del gzip, habrá que usarlo cuidadosamente.
Sobre lo de Piqué... ya decía Rushkoff que eso de internet era comunicación entre personas hasta que apareció la www



2
De: JJ Fecha: 2003-04-02 19:44

Lo del gzip es natural: lo que hace es minimizar al número de bytes que se necesitan para codificar la información que había en el fichero original. Que funcione en el spam, me parece más casualidad que otra cosa: si comprimes uno de los emails coreanos que recibo habitualmente, seguro que no logras ni un 10% de reducción. Además, los mensajes que se reciben de listas incluyen a veces publicidad, con lo cual, no debe haber una diferencia tan clara, al menos hoy en día. Y en cuanto a los seres vivos, es natural: los seres vivos "crean información", extraen energía de su entorno para hacerlo, y disminuyen de esa forma la entropía: las estructuras creadas por los seres vivos lo reflejan; sin embargo, lo que no está vivo no puede crear esas estructuras (lo más parecido son las reacciones autocatalíticas, tipo Belousov-Zabotinsky).
Buena historia, de las que hacen pensar. Y curioso que coincidamos hoy en el tema del spam.



3
De: JJ (deshaciendo la metedura de pata) Fecha: 2003-04-02 19:49

El artículo, y tu historia, dice justamene lo contrario, que los seres vivos se comprimen más, y la explicación es justamente la contraria: los seres vivos disminuyen la entropía propia (entropía equivale a información), aumentan su orden, a costa de absorber energía del entorno (aumentando la entropía del entorno). Lo "natural" es más "aleatorio" que lo artificial.



4
De: fernand0 Fecha: 2003-04-02 20:06

Como método de spam no creo que sea muy bueno, aunque sólo sea por el coste de la compresión, frente a los métodos de reglas o bayesianos que me parece que son mucho más eficientes.

En la historia de Slashdot nombraban más usos creativos.



<Enero 2025
Lu Ma Mi Ju Vi Sa Do
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31