¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

Cuando abrimos un archivo de Word, PowerPoint o Excel nuestra percepción es que trabajamos con un documento, pero a nivel interno las extensiones .docx, .pptx, y .xlsx son simples archivos .zip extraíbles, con una estructura de carpetas.

En realidad, Office guarda los documentos de texto, presentaciones y hojas de cálculo en ficheros tipo .xml de varias clases. Además, dentro del archivo también puede haber imágenes, audio o vídeo, que van en su carpeta correspondiente.

Es decir, un .docx, .pptx, o .xlsx está compuesto por varios archivos, y resultaría incómodo trabajar con ellos si tuviéramos que guardarlos o enviarlos de forma individual. Así que el formato es un simple contenedor donde se almacenan todos los elementos de forma cómoda.

Al pinchar en un Word, por ejemplo, lo que nos aparece es el documento, sin más. El programa descomprime los archivos extraíbles, los interpreta y los presenta de la forma esperada.

Sin embargo, el archivo en sí es un .zip, donde están comprimidos sus componentes. De hecho, si cambiamos la extensión, es posible ver la estructura de los archivos extraíbles, y manejarlo como cualquier .zip.

Esto funciona a partir de Office 2007, cuando se implementó Open XML, un formato más abierto e interoperable basado en un lenguaje denominado XML, que permitía que otros programas pudiesen leer los datos sin depender del software de Microsoft.

Microsoft estaba recibiendo presiones de la Unión Europea por su dominio en el segmento de la ofimática, y con Open XML redujo estos problemas, lo que explica que optara por archivos contenedores en un formato tan popular como .zip (si bien técnicamente lo llama Open Packaging Convention).

Un ejemplo de un .docx extraíble

Vamos a ver un ejemplo con un documento de Word, si bien el proceso funciona con las demás extensiones de Office, como .xlsx y .pptx. Partimos del archivo .docx en un PC con Windows, aunque el sistema es aplicable en cualquier plataforma usando las herramientas adecuadas.

  1. Primero necesitamos cambiar de forma manual la extensión, algo que por defecto no viene activado. Abriremos una ventana del explorador de archivos, y entraremos en la pestaña "Vista":

Imagen - ¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

  1. Buscamos el panel de "Mostrar y ocultar" para asegurarnos de que la casilla "Extensiones de nombres de archivo" está marcada con un check:

Imagen - ¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

  1. Con la extensión .docx visible, hacemos clic con el botón derecho del ratón en el Word, y elegimos "Cambiar nombre":

Imagen - ¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

  1. Ahora borramos la extensión .docx que aparece después del punto, y la sustituimos por .zip, sin cambiar el nombre que aparece antes del punto:

Imagen - ¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

  1. El sistema operativo nos avisa de que el archivo podría dejar de funcionar, pues la extensión determina qué aplicación la abre. En este caso diremos "Sí" para confirmar, pues precisamente buscamos desligar el .docx de Word para ver los archivos extraíbles de su interior:

Imagen - ¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

  1. Ahora el sistema operativo cambiará el icono al que usan los ficheros comprimidos, y lo abrirá con la aplicación asignada a los .zip:

Imagen - ¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

  1. Es importante tener claro que solo hemos realizado un cambio de nombre, a nivel interno el Word ya era un .zip desde un primer momento, solo que ahora su estructura comprimida es accesible.
  2. Podemos utilizar programas de compresión populares como WinRAR o 7-Zip si los tenemos instalados, pero en Windows no hace falta software adicional, incluso en Android es sencillo descomprimir los .zip.
  3. Si tenemos Windows, basta hacer clic con el botón derecho del ratón en el .zip, elegir "Extraer todo..." y nos permitirá elegir dónde colocar los archivos:

Imagen - ¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

  1. La carpeta resultante mostrará el contenido del .docx, del .pptx o del .xlsx en carpetas, con ficheros .xml de datos, y también las fotos u otro contenido multimedia incluido.

Imagen - ¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

  1. De esta forma ya hemos accedido a los archivos extraíbles en los que se basa Office, y que nos pueden resultar útiles en ciertas circunstancias.

¿Qué hay dentro de los archivos de Office?

Obviamente, un .docx, .pptx, o .xlsx almacena nuestros textos, presentaciones u hojas de cálculo, respectivamente, pero aquí lo interesante es su estructura. El primer elemento que veremos será un fichero llamado [Content_Types].xml.

El llamado XML es un lenguaje para contenidos similar al HTML que usan las páginas web. Si abrimos con un editor de texto el [Content_Types].xml veremos un contenido hasta cierto punto "legible" a nivel visual, aunque lógicamente no entenderemos nada si no conocemos XML:

Imagen - ¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

[Content_Types].xml no tiene mayor interés de cara al usuario, pues guarda información para que Office interprete los datos (texto, imágenes, vídeo, música...). Tampoco las carpetas _rels o docProps nos servirán de mucho.

En cambio, una de las carpetas se llamará "word" (para .docx), "ppt" (con .pptx) o "xl" (.xlsx), y ahí es donde podemos llegar a hacer algún uso de los archivos extraíbles.

Por ejemplo, en la carpeta "media" se guardan los archivos multimedia integrados. Es decir, si nos pasan un Word o PowerPoint con muchas imágenes podríamos convertirlo en .zip e ir a esta carpeta para copiar las imágenes de forma rápida, que estarán en el formato original.

Estas son las rutas para extraer las imágenes del documento:

  1. Word: carpeta "word" -> carpeta "media".
  2. Excel: carpeta "xl" -> carpeta "media".
  3. PowerPoint: carpeta "ppt" -> carpeta "media".

Imagen - ¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

Por otro lado, en el caso de Word veremos un archivo llamado document.xml donde se almacena el contenido en sí, aunque en un formato muy complejo para un ser humano (pues su objetivo es que lo procese Word).

No está pensado para trabajar directamente con él, su aspecto es así:

Imagen - ¿Sabes que los archivos .docx, .pptx y .xlsx son archivos extraíbles?

Es decir, el texto está presente, pero dentro de una estructura llamada de "marcas", que incluye información como el tipo de letra, las negritas, cursivas, enlaces y otros detalles del formato.

En general, no es demasiado legible, y en los .xlsx de las hojas de Excel es peor. De todas formas, te indicamos la ruta donde están los contenidos por si quieres explorar los archivos extraíbles:

  1. Word: carpeta "word" -> fichero document.xml
  2. Excel: carpeta "xl" -> carpeta "worksheets" -> ficheros sheet1.xml y sharedStrings.xml

Respecto a PowerPoint, el contenido se encuentra en la carpeta "ppt", pero repartido en varios ficheros .xml, y su legibilidad es muy complicada, pues son presentaciones con una clara orientación visual, y casi siempre con abundantes imágenes.

En conclusión, que los archivos .docx, .pptx, y .xlsx sean en realidad .zip extraíbles tiene como principal ventaja acceder a las imágenes fácilmente, al menos por la parte que le toca al usuario.

Para los programadores, y el sector tecnológico en general, el paso a Open XML ha supuesto mayor facilidad para integrar documentos de Office en diversas situaciones, y reducido un poco el excesivo dominio de Microsoft en el sector de la ofimática.

Lo mejor es que cualquiera puede acceder a los archivos extraíbles de un .docx, .pptx o .xlsx, así que vale la pena echarles un vistazo si somos usuarios curiosos, o bien probar alguna de las alternativas a Microsoft Office, que a día de hoy usan sistemas de guardado similares.

¿Sabías que los ficheros de Word, Excel y PowerPoint son extraíbles? ¿Crees que darás uso a esta función?

  • Ver Comentarios