Language not set to Spanish. Translate this web to english with Babelfish here!
www.fibranet.org :: Ver tema - Infospiders
 Registrarse   FAQ   Buscar   Miembros   Login 
Publicar nuevo tema  Responder al tema
Infospiders
Br0th3r
Administrador
Administrador

Registrado: 17 Jun 2004
Mensajes: 175
Ubicación: Málaga
Responder citando
Bueno, ese es el nombre que reciben las arañas (programas) que recorren la web visitando nuestras páginas para indexar los buscadores. ¿Alguien conoce algún buen manual para construir una buena araña? ¿cómo trabajan mejor? ¿algún código GPL ya hecho?

Gracias,
Ver perfil de usuarioEnviar mensaje privadoVisitar sitio web del autorDirección AIMYahoo MessengerMSN MessengerNúmero ICQ
Spiders
okercho
Aplicación
Aplicación

Registrado: 11 Jul 2004
Mensajes: 12
Responder citando
Creo recordar que le i hace poco que Google (si, el todopoderoso google Very Happy) iba a liberar PARTE del codigo de su araña rastradora.

También supongo que en sourceforge habra algun proyecto que diseñe arañas de exploración web, has mirado?

Saludos!

_________________
Okercho
Nodo Las Americas -- MálagaWireless
Ver perfil de usuarioEnviar mensaje privado
Encontrado
Br0th3r
Administrador
Administrador

Registrado: 17 Jun 2004
Mensajes: 175
Ubicación: Málaga
Responder citando
Sí, he encontrado pero las que he visto buscan en todas las webs y yo quiero una que se quede sólo con aquellas webs que cumplan unas especificaciones con respecto a los contenidos.

Una opción era hacer que el proxy limitase las páginas a ver pero no sé hacerlo por el contenido (sí por la URL).

¿Ideas? (quizá acabe programando mi propia araña)
Ver perfil de usuarioEnviar mensaje privadoVisitar sitio web del autorDirección AIMYahoo MessengerMSN MessengerNúmero ICQ
Problemas Aparentes
okercho
Aplicación
Aplicación

Registrado: 11 Jul 2004
Mensajes: 12
Responder citando
El problema que yo le veo a eso es... ¿Como diferencias los contenidos?, es decir, como sabe la araña que no es una página que habla sobre... nose, la vida de las abejas, y si es una página X?, porque podrías por ejemplo decir "vamos a buscar en el titulo de la página, y diferenciamos por el", pero, ¿Y si no tiene? ¿Y si alguien pone algo para "engañar" a tu araña?

Muchos problemas veo yo a una implementación selectiva...

Una pregunta, ¿Para que quieres la susodicha araña?

Saludos!

_________________
Okercho
Nodo Las Americas -- MálagaWireless
Ver perfil de usuarioEnviar mensaje privado
Araña que araña
Br0th3r
Administrador
Administrador

Registrado: 17 Jun 2004
Mensajes: 175
Ubicación: Málaga
Responder citando
Bueno, no es tan complicada la búsqueda. Smile

Buscas en los contenidos para que aparezcan sólo las páginas en las que aparezcan las palabras A,B,C... pero no aparezcan las X,Y,Z... Es un método de selección cutre ahora mismo pero mis ideas han pasado ya a otro nivel.

Finalmente el objetivo es un proyecto bajo secreto. "No hay palabras que el viento se lleve, si no han sido dichas". Si quieres colaborar...ponte en contacto por privado y te cuento un poco más.

Por cierto, ¿cuando te vas a poner un AVATAR?
Ver perfil de usuarioEnviar mensaje privadoVisitar sitio web del autorDirección AIMYahoo MessengerMSN MessengerNúmero ICQ
Avatar
okercho
Aplicación
Aplicación

Registrado: 11 Jul 2004
Mensajes: 12
Responder citando
Ya tengo Avatar Very Happy.

Te envio un mail y ya me cuentas algo mas.

Saludos!

_________________
Okercho
Nodo Las Americas -- MálagaWireless
Ver perfil de usuarioEnviar mensaje privado
Más detalles...
partymola
Invitado

Responder citando
El algoritmo que intenta adivinar de qué trata una página es bastante complejo. También suele tener en cuenta qué texto se suele usar cuando unas páginas enlazan con otra dada. Esto es lo que hace posible que se produzcan los típicos ataques para conseguir puestos altos en los buscadores creando gran cantidad de enlaces en pagínas con un texto dado.
Algoritmo
Br0th3r
Administrador
Administrador

Registrado: 17 Jun 2004
Mensajes: 175
Ubicación: Málaga
Responder citando
Con la mezcla de un proxy concreto que encontré (para protección de menores), haciendole ciertas modificiones y una buena araña, obtener estos resultados no es dificil. El proxy limita los contenidos por puntuación (palabras contenidas) y la araña navega por todo internet usando este proxy.

El resultado es realmente sorprendente, conseguí navegar (como si yo fuese la araña) con un porcentaje de acierto de 48/50, es decir, había 2 páginas que no pertenecían al tema que yo quería buscar y el resto de páginas si eran sobre este tema concreto. El tema que usé fue el de encontrar páginas webs relacionadas con "casas rurales en españa".

Un saludo,

_________________
Juan Miguel Taboada Godoy
Administrador de Fibranet.org
Para temas comerciales acuda a Centrologic (Computational Logistic Center) en http://www.centrologic.com
Ver perfil de usuarioEnviar mensaje privadoVisitar sitio web del autorDirección AIMYahoo MessengerMSN MessengerNúmero ICQ
Infospiders
Puede publicar nuevos temas en este foro
No puede responder a temas en este foro
No puede editar sus mensajes en este foro
No puede borrar sus mensajes en este foro
No puede votar en encuestas en este foro
Todas las horas son GMT + 2 Horas  
Página 1 de 1  

  
  
 Publicar nuevo tema  Responder al tema