• Saltar a la navegación principal
  • Saltar al contenido principal
  • Saltar al pie de página
SCRAPER.ES

SCRAPER.ES

scraping y automatización

  • Home
  • Precios
  • RTILA WEB SCRAPER
    • RTILA Help
    • RTILA Automation
    • RTILA ROADMAP
    • Premium Support
  • Blog
  • Contactar

Descarga de páginas web para agencias de traducción

22 abril 2024 por scraper

Tiempo de lectura: 4 minutos

Si eres traductor o trabajas en una empresa de traducción, algún cliente te habrá pedido traducir su página web.

Presupuestar ese trabajo y realizar el conteo de palabras puede ser complicado.

En primer lugar, necesitarás saber cuantas páginas tiene la web.

Listado de URLs de una web

No es sencillo y las apariencias pueden engañar. Que el menú principal tenga 4 apartados no significa que la web sea pequeña.

Esta web que estas viendo, tiene un menú con 8 enlaces, pero el total a traducir serían 46 páginas.

Una web puede tener decenas o cientos de enlaces. Tendremos que seleccionar sólo los que son internos y apunten a una página válida, descartando los posibles duplicados.

También deberemos corregir posibles errores de respuesta HTTP o redirecciones.

Desde scraper.es te ayudamos con todo el tema técnico, verificaremos cada enlace para ver si aporta nuevo contenido y descartaremos todos aquellos que sean erróneos o duplicados.

Una vez realizado este paso, para cada página buscaremos las secciones que son comunes. En una web por lo general tendremos una cabecera, menús, barras laterales y pies de página que pueden ser comunes a toda la web y no podremos incluir estos elementos en el conteo.

Por ejemplo, en esta misma web que estás leyendo tenemos una llamada a la acción que aparece en todas nuestras páginas que dice: “Consultar Precio Web Scraping – Escríbenos con la información que necesitas para realizar tu proyecto”.

Son solo 14 palabras, pero si tenemos en cuenta que aparece en 46 páginas tendríamos un error acumulado de 630 palabras extra que estaríamos contabilizando al cliente.

Si añadimos el resto de zonas comunes serían 3.220 palabras repetidas, en lugar de 70 palabras únicas reales.

En webs de tamaño mediano, el error acumulado puede ser de más de 20.000 palabras.

El tercer punto a solucionar son los metadatos. En la web hay una cantidad de información textual que no es visible para el usuario. Es información que se usa para informar a motores de búsqueda y redes sociales.

Estos elementos ocultos pueden extraerse de forma automatizada.

Por último, nos quedaría hacer el conteo de palabras de las rutas de la URL.

Por ejemplo, si la pagina es: https://scraper.es/extraer-datos-de-una-pagina-web-a-excel/ tendremos que contabilizar las palabras: “extraer datos de una pagina web a Excel”.

En nuestro servicio de descarga de datos web para traducción, te enviaremos:

  • Direcciones URL, para que puedas acceder y comprobar las páginas que vayas a traducir.
  • Metadatos: títulos y meta-descripciones.
  • Secciones únicas: menú, pie de pagina, cabeceras, llamadas a la acción, barras laterales, etc.
  • Contenido: texto de páginas y entradas.
  • Descarga de imágenes y documentos, como PDF, XLS, DOC, etc.

En caso de que necesites eliminar una o varias secciones de la web, te ayudaremos a etiquetar y filtrar el contenido.

Por ejemplo, imagina que tu cliente tiene un blog de moda/belleza y de momento no quiere traducir las entradas de moda, o quiere solamente las que se publicaron en los últimos 2 años.

Recibirás el texto totalmente limpio, sin formato de ningún tipo, para que puedas cargarlo en tu aplicación de traducción:

  • SDL Trados Studio
  • memoQ
  • Wordfast
  • Déjà Vu
  • Across…

o bien podrás simplemente abrirlo con cualquier editor de texto plano / Microsoft Word.

Ejemplo de contenido web para traducir con una herramienta de alineación de texto.

Publicado en: traducciones

CONSULTAR PRECIO WEB SCRAPING

Escríbenos con la información que necesitas para realizar tu proyecto

Contactar

Footer

SOCIAL

A través de nuestras redes sociales pretendemos compartir contenidos, conversar y generar comunidad.

  • Facebook
  • LinkedIn
  • Twitter

CONTACTO

SCRAPER.ES
San Mateo, 94
12004 Castellón
+34 964360088

MENÚ

  • Home
  • Precios
  • RTILA WEB SCRAPER
    • RTILA Help
    • RTILA Automation
    • RTILA ROADMAP
    • Premium Support
  • Blog
  • Contactar

Categorías

automatizaciones RTILA Rust traducciones tutoriales UBot Studio web scraping WinAutomation

Copyright © 2025 Scraper.es - Web scraping y automatización - Ryan Studios, S.L.