Si eres traductor o trabajas en una empresa de traducción, algún cliente te habrá pedido traducir su página web.
Presupuestar ese trabajo y realizar el conteo de palabras puede ser complicado.
En primer lugar, necesitarás saber cuantas páginas tiene la web.

No es sencillo y las apariencias pueden engañar. Que el menú principal tenga 4 apartados no significa que la web sea pequeña.
Esta web que estas viendo, tiene un menú con 8 enlaces, pero el total a traducir serían 46 páginas.
Una web puede tener decenas o cientos de enlaces. Tendremos que seleccionar sólo los que son internos y apunten a una página válida, descartando los posibles duplicados.
También deberemos corregir posibles errores de respuesta HTTP o redirecciones.
Desde scraper.es te ayudamos con todo el tema técnico, verificaremos cada enlace para ver si aporta nuevo contenido y descartaremos todos aquellos que sean erróneos o duplicados.
Una vez realizado este paso, para cada página buscaremos las secciones que son comunes. En una web por lo general tendremos una cabecera, menús, barras laterales y pies de página que pueden ser comunes a toda la web y no podremos incluir estos elementos en el conteo.
Por ejemplo, en esta misma web que estás leyendo tenemos una llamada a la acción que aparece en todas nuestras páginas que dice: “Consultar Precio Web Scraping – Escríbenos con la información que necesitas para realizar tu proyecto”.
Son solo 14 palabras, pero si tenemos en cuenta que aparece en 46 páginas tendríamos un error acumulado de 630 palabras extra que estaríamos contabilizando al cliente.
Si añadimos el resto de zonas comunes serían 3.220 palabras repetidas, en lugar de 70 palabras únicas reales.
En webs de tamaño mediano, el error acumulado puede ser de más de 20.000 palabras.
El tercer punto a solucionar son los metadatos. En la web hay una cantidad de información textual que no es visible para el usuario. Es información que se usa para informar a motores de búsqueda y redes sociales.
Estos elementos ocultos pueden extraerse de forma automatizada.
Por último, nos quedaría hacer el conteo de palabras de las rutas de la URL.
Por ejemplo, si la pagina es: https://scraper.es/extraer-datos-de-una-pagina-web-a-excel/ tendremos que contabilizar las palabras: “extraer datos de una pagina web a Excel”.
En nuestro servicio de descarga de datos web para traducción, te enviaremos:
- Direcciones URL, para que puedas acceder y comprobar las páginas que vayas a traducir.
- Metadatos: títulos y meta-descripciones.
- Secciones únicas: menú, pie de pagina, cabeceras, llamadas a la acción, barras laterales, etc.
- Contenido: texto de páginas y entradas.
- Descarga de imágenes y documentos, como PDF, XLS, DOC, etc.
En caso de que necesites eliminar una o varias secciones de la web, te ayudaremos a etiquetar y filtrar el contenido.
Por ejemplo, imagina que tu cliente tiene un blog de moda/belleza y de momento no quiere traducir las entradas de moda, o quiere solamente las que se publicaron en los últimos 2 años.
Recibirás el texto totalmente limpio, sin formato de ningún tipo, para que puedas cargarlo en tu aplicación de traducción:
- SDL Trados Studio
- memoQ
- Wordfast
- Déjà Vu
- Across…
o bien podrás simplemente abrirlo con cualquier editor de texto plano / Microsoft Word.
