Professional Documents
Culture Documents
ALGORITMO DE GOOGLE
Durante la primera fase, el proceso de bsqueda de Google comienza a realizar un rastreo de las
ms de 30 billones de pginas existentes en Internet, cifra que se encuentra en continuo
crecimiento. En este proceso, Google busca, en nfimas fracciones de segundo, los enlaces pgina
a pgina. Mientras, los propietarios de stas son los que deciden si el buscador puede 'gatear' en
su web establecindolo as en su cdigo.
Tras el "gateo", Google clasifica las pginas segn su contenido y otros factores manteniendo una
monitorizacin de todas las pginas que se encuentran 'indexadas', las cuales constituyen cerca de
ms de 100 millones de GB de contenido. Adems de la informacin obtenida mediante el "gateo"
a travs de las pginas webs, Google tambin recoge informacin acerca del mundo 'real' como la
recogida por el sistema de StreetView o el contenido de millones de textos procedentes de gran
cantidad de libros almacenados en libreras de todo el mundo. Para la segunda fase del proceso de
bsqueda, Google pone en marcha sus programas y frmulas para ofrecer el mejor resultado
posible en el momento en el que el usuario escribe sus caracteres de bsqueda. A travs de
algoritmos, la compaa de Mountain View intenta "entender mejor" lo que el usuario pretende
buscar. Estos algoritmos realizan distintas tareas entre las que se encuentran: deletrear la
bsqueda, autocompletarla, buscar sinnimos, buscar y entender las preguntas realizadas.
Basndose en estas pistas dadas por los algoritmos, el buscador extrae los documentos relevantes
de aquellos indexados ordenando los resultados usando hasta 200 factores. Estos algoritmos se
encuentran en continuo cambio a travs del equipo del Laboratorio de Bsqueda que pretende
mejorar los sistemas de bsqueda mediante la aplicacin de nuevos algoritmos evaluados por los
ingenieros de la compaa. Tras la bsqueda realizada por el algoritmo, se pueden encontrar
diversos resultados: grficos de conocimiento, vistas previas, noticias, respuestas a consultas
online, vdeos, imgenes... En las pginas de resultados tambin se encuentran herramientas
como las bsquedas por voz, las bsquedas avanzadas o las mejoras diseadas para los
dispositivos mviles. Durante la tercera fase, Google lucha contra el contenido que no interesa.
"Luchamos contra el spam 24/7 para mantener sus resultados relevantes", se lee en el grfico.
Pese a que la mayor parte del spam se elimina automticamente, el equipo de Google tambin
examina otros documentos susceptibles de formar parte de este fenmeno a mano. As, en el
momento en el que detectan una pgina de cualquier tipo de spammer es eliminada de forma
manual. En el momento en el que se toma la accin, se notifica la decisin a los propietarios del
'site' para darles la oportunidad de arreglar el fallo detectado y notificarlo al equipo de Mountain
View. Desde que en diciembre de 2011 se ampli el concepto de spam a todas sus categoras, se
experiment un aumento en la deteccin de este tipo de pginas llegando a detectarse en junio de
LINEA DE ENFASIS I
JH0N EDDIE RENTERIA GAMBOA
2012 hasta 655.274 webs fraudulentas. Los ltimos datos publicados, corresponden al pasado mes
de septiembre donde se notificaron fallos a 398.473 webs.
MOTORES DE BUSQUEDA
Clases de buscadores
Las araas (tambin llamadas "spiders") de los motores de bsqueda, recorren las pginas
recopilando informacin sobre los contenidos de las pginas. Cuando se busca una
informacin concreta en los buscadores, ellos consultan su base de datos y presentan
resultados clasificados por su relevancia para esa bsqueda concreta. Los buscadores
pueden almacenar en sus bases de datos desde la pgina de entrada de cada web, hasta
todas las pginas que residan en el servidor, una vez que las araas (spiders) las hayan
reconocido e indexado.
Si se busca una palabra (por ejemplo: ordenadores), en los resultados que ofrecer el
motor de bsqueda aparecern pginas que contengan esta palabra en alguna parte de su
texto de contenido.
Si consideran que un sitio web es importante para el usuario, tienden a registrar todas sus
pginas. Si no la consideran importante, no se almacenan todas.
Cada cierto tiempo, los motores revisan los sitios web, para actualizar los contenidos de su
base de datos, por tanto puede que los resultados de la bsqueda estn desactualizados.
Los buscadores jerrquicos tienen una coleccin de programas simples y potentes con
diferentes cometidos. Se suelen dividir en tres partes. Los programas que exploran la red -
araas (spiders)-, los que construyen la base de datos y los que utiliza el usuario, el
programa que explota la base de datos.
Directorios
Una tecnologa muy simple por gran cantidad de scripts disponibles, ya que no se requieren
muchos recursos. En cambio, se requiere ms soporte humano y mantenimiento.2
Los algoritmos son mucho ms sencillos, presentando la informacin sobre los sitios
registrados como una coleccin de enlaces. No recorren los sitios web ni almacenan sus
contenidos. Solo registran algunos de los datos de la pgina web, como el ttulo y la
descripcin que se introduzcan en el momento de registrar el sitio en el directorio.
Como inconveniente cabe resaltar que los resultados estn ordenados por temtica, o por
fecha de publicacin, pero no por relevancia o concordancia con una bsqueda concreta
del usuario.
Ejemplos de directorios son Open Directory Project, y los antiguos Yahoo! y Terra (antes Ol).
estos directorios utilizaban una organizacin jerrquica de la informacin.
Los multibuscadores se limitan a colocar en una pgina web una lista con los buscadores ms
comunes y con una ventana de texto para poder enviar la cadena de bsqueda introducida por el
usuario a cada uno de ellos. Tambin pueden enviar la cadena de bsqueda a una serie de
motores de bsqueda e ndices temticos previamente definidos. Una vez realizada la consulta a
los buscadores prefijados, el multibuscador devolver la informacin de todos los enlaces
encontrados. Con la utilizacin de multibuscadores, el usuario se evita tener que ir de buscador en
buscador hasta encontrar la informacin deseada. El usuario elige los buscadores que quiere
utilizar y desde all realiza su consulta que ofrecer las respuestas buscador por buscador. La
nica ventaja es la posibilidad de consultar un gran nmero de buscadores partiendo de una nica
pgina. La exhaustividad primar sobre la precisin, ya que el usuario encontrar un gran nmero
de enlaces y muchas pginas repetidas.
Metabuscadores
Permite lanzar varias bsquedas en motores seleccionados respetando el formato original de los
buscadores. Lo que hacen es realizar bsquedas en autnticos buscadores, analizan los
resultados de la pgina y presentan sus propios resultados, segn un orden definido por el sistema
estructural del metabuscador.
Los metabuscadores tambin permiten buscar en varios buscadores al mismo tiempo. Los
metabuscadores no almacenan las descripciones de pginas en sus bases de datos, sino que
contienen los registros de los motores de bsqueda y la informacin sobre ellos, adecuando su
expresin a los diferentes motores para remitir la consulta a los motores. Una vez que reciben la
respuesta, la remiten al usuario no directamente, sino tras realizar un filtrado de los resultados.
LINEA DE ENFASIS I
JH0N EDDIE RENTERIA GAMBOA
Este filtrado consiste en eliminar y depurar los enlaces repetidos y en ordenar los enlaces.
Adems, slo aparecer un nmero limitado de enlaces, los que se consideren ms importantes.
Los ms repetidos ocuparn los primeros puestos ya que el metabuscador considerar que son los
ms relevantes por estar dados de alta en mayor nmero de buscadores. Se trata de herramientas
muy tiles, el nico problema es que, por lo general, no permiten realizar bsquedas tan
avanzadas como en un motor de bsqueda, con lo que las consultas tienen que ser generales y no
se puede buscar en profundidad.
"En otras palabras para aludir al concepto ms genrico de un buscador, podemos afirmar que un
metabuscador es el buscador que incorpora un conjunto de buscadores. Algunos ejemplos de
metabuscadores son: Dogpile, Aleyares Metacrawler, entre otros. Estos metabuscadores presentan
ventajas, como ampliar el espacio de bsqueda y en algunos casos mostrar la posicin de la web".
Buscadores verticales
Los buscadores verticales o motores que no son de bsqueda temticos son buscadores
especializados en un sector concreto, lo que les permite analizar la informacin con mayor
profundidad, disponer de resultados ms actualizados y ofrecer al usuario herramientas de
bsqueda avanzadas. Es importante resaltar que utilizan ndices especializados, para de este
modo, acceder a la informacin de una manera ms especfica y fcil. Algunos ejemplos de estos
buscadores son: Nestoria, Wolfram Alpha. Existen distintos tipos de estos buscadores, algunos
estn especializados en una rama de una ciencia, y algunos abarcan todo tipo de materias.
Tambin hay motores de bsqueda que solo ofrecen resultados sobre msica, ropa u otras
temticas.
CMS
los CMS son plataformas web estandarizadas que permite a los usuarios crear contenido para su
pgina desde un backend o gestor de contenidos sin necesidad de contar con conocimientos
tcnicos muy especficos. Es probable que hayas odo hablar de algunos de los CMS ms
populares que suelen utilizar los programadores, como Drupal, WordPress, Joomla, Magento,
Prestashop, OsCommerce
No todas las pginas Web son iguales, y para ello existen tantos CMS como tipos de Webs. Los
hay para blogs, pginas corporativas, inmobiliarias, noticias o magazines, contenidos multimedia,
tiendas en lnea, aulas virtuales, etc. Algunos CMS son desarrollos con licencia gratuita y otros son
pagos.
Dentro de los CMS con licencia gratuita, destacan tres grandes proyectos: WordPress, Joomla! y
Drupal. Son tres desarrollos independientes y producto de largos aos de evolucin, respaldados
por una comunidad de usuario que trabajan desinteresadamente para lanzar nuevas y
mejores versiones de cada uno de los CMS.
1. Uso sencillo: No es necesario ser un experto para programar para publicar y gestionar
contenido dinmico o esttico.
4. Escalable: Uno de los puntos fuertes de los CMS son los plugins o mdulos que podremos
aadir en cualquier momento y pueden significar una nueva funcionalidad.
El desarrollo basado en un CMS tiene una gran cantidad de ventajas que hacen que sea una
opcin muy recomendable a la hora de plantear una web:
1. Los CMS tienen funcionalidades concretas que est comprobado que funcionan y
funcionan bien, sin necesidad de arreglar fallos en cuestiones bsicas y permitiendo
centrarse en aspectos ms complejos. Los CMS suelen cubrir necesidades para
plataformas de comercio electrnico, blogs, pginas con contenido estructurado y gestin
de usuarios todo depende de elegir el CMS apropiado.
2. Un usuario puede gestionar su propia web despus de recibir formacin. Una vez
desarrollada la web, el propio usuario puede aadir, editar o borrar datos y mantener su
pgina viva por s mismo.
4. Permiten desarrollos escalables. Esto significa que, con una buena planificacin, se
puede orientar el desarrollo desde un CMS para aadir nuevas funcionalidades no
previstas en el futuro sin que la web sufra cambios traumticos mediante la incorporacin
de mdulos.
5. Muchos desarrolladores utilizan los CMS ms populares. Esto es una ventaja importante,
porque cualquier programador es capaz de hacerse cargo y modificar cualquier
web siempre que conozca la arquitectura del CMS empleado aunque no sean ellos los que
la hayan desarrollado.
Con todas estas ventajas, es fcil encontrar mltiples portales reconocidos desarrollados a partir de
un sistema de gestin de contenidos bajo plataformas CMS que cubren todas sus necesidades.
LINEA DE ENFASIS I
JH0N EDDIE RENTERIA GAMBOA
Ejemplos de CMS
Modxcms:
Es un sistema de administracin de contenido libre, rpido, flexible que utiliza html, css, ajax, php y
frameworks. Para mayor informacin sobre la aplicacin puedes revisar el foro y wiki para realizar
tus consultas sobre mdulos, implementacin, funcionamiento y dems.
Zikula:
Una aplicacin abierta con una capacidad grande de administracin de contenido. Trabaja en
plataforma de internet e intranet. Cuenta con documentacin amplia sobre las funciones de la
herramienta y toda una comunidad para ayudar en las consultas del usuario.
Flexcms:
Una aplicacin desarrollada con PHP y MySQL database, se define como una aplicacin flexible y
amigable para websites dinmicos que andan en busca de una opcin diferente en la actualidad
estn promoviendo la versin FlexCMS 3.0.
TYPOlight:
LINEA DE ENFASIS I
JH0N EDDIE RENTERIA GAMBOA
Smallbox CMS:
un software para administracin de contenido y excelente para los proyectos de website dinmicos.
Ofrece una versin demo para probar las caractersticas que ofrece a diferencia de otras opciones.
Cuanta con un blog y foro de discusin.
Xoops:
Un administrador de contenido desarrollado en PHP con una licencia GNU General Public. Otra
opcin para los desarrolladores que piensan en desarrollos grandes o pequeos de sitios
dinmicos. En la actualidad promocionan su versin 2.3.3 lista para descargar.
Symphony:
Otra opcin Open Source para la administracin de conidos dinmicos muy popular entre los
desarrolladores. En la actualidad puedes descargar la versin 2.0.2 y tambin cuenta con recursos
LINEA DE ENFASIS I
JH0N EDDIE RENTERIA GAMBOA
DotNetNuke:
Es una opcin que cuenta con ms de 6 millones de descargas y aproximadamente 400 mil
productos lo utilizan como gestor de contenido. Cuenta con muchos recursos para informarse
sobre la aplicacin puedes utilizar sus diferentes ediciones.
Cuenta con la versin 1.5.4, urls amigables, integracin en lnea, administracin de usuarios,
mdulos, diseo y desarrollo. Documentacin en lnea y foros de discusin.
ocPortal:
Al igual que opciones anteriores es un sistema Open Source que no cuenta con versiones pro, ni
lmites en su uso. Existe una comunidad detrs de l en donde puedes consultar tus dudas e
inquiertudes sobre el gestor de contenidos.