Los archivos PDF pueden venir de distintas fuentes: se pueden crear a partir de un documento de MS Word, una presentación de PowerPoint o una imagen escaneada, entre otros. Como las herramientas de traducción asistida (o CAT Tools) no aceptan este tipo de archivos, nuestra primera opción es hacer la traducción en un archivo de MS Word. Sin embargo, si lo que queremos es usar una herramienta de traducción asistida (algo que deberíamos hacer siempre debido a que es más conveniente para nuestras necesidades y para la calidad final del trabajo), debemos encontrar la forma de extraer el texto del archivo PDF para poder abrirlo.
Según la fuente de la que provenga, existen diferentes maneras de extraer texto de un archivo PDF. Si se creó a partir de un documento de MS Word, todo lo que tenemos que hacer es guardar/convertir el PDF en el formato deseado, en este caso, un archivo de MS Word, y luego corregir los errores de formato (espacios, ortografía, etcétera). Si el PDF proviene de otra fuente (por ejemplo, un documento escaneado), el enfoque será otro. Si trabajamos en una empresa, probablemente haya un departamento de diseño gráfico, o al menos una persona, que pueda realizar el trabajo de pre DTP (explicaremos esto con más detalle en el futuro) para extraer el texto. Una vez que el pre DTP esté listo, debemos preeditar el archivo. Es fundamental hacer esto, especialmente, cuando trabajamos con números. Por más confiable que sea nuestro departamento de DTP, es probable que haya cosas que no se conviertan correctamente y que necesiten revisión: por ejemplo, una “I” se puede convertir en un “1” o una “c” en una “e”.
Para que la calidad de nuestro trabajo alcance los estándares más altos, solo tenemos que seguir estos pasos al trabajar con archivos PDF. ¡Y no debemos olvidarnos de la preedición!