« Febrero 2007 | Ir a la portada | Mayo 2007 »

Marzo 13, 2007

El chico nuevo del Barrio

grafica.trafico.jpg

Si alguno de ustedes adivinara a que corresponde esta gráfica antes de dar el salto (o hacer click en la imagen), me dejarían francamente sorprendido. Una pista, el titulo del post.

La gráfica es la alucinante progresión (comparada con Meneame, el Digg español, para que se hagan una idea) del nuevo chico en el barrio digital este en el que vivimos ustedes y yo. Se llama Twitter y viene pisando fuerte. Para que voy a engañarles, en un principio parece tonto, inofensivo y ni siquiera guapo, pero a la que te descuides se ha hecho el líder del grupo y te esta enviando a por los cafés. Engancha y de mala manera.

Si todavía no se han enterado de que estamos hablando, aquí va una pequeña explicación: Twitter es básicamente un servicio para comunicar que estas haciendo en cada momento, online y offline. Permite enviar mensajes de 140 caracteres y que ver aquellos de las personas que tienes agregadas.

¿Bueno y la gracia esta...?

Ya esta. No hay mas gracia. En serio. Alguno les dirá que el poder actualizar y enviar los mensajes desde Google Talk o el teléfono móvil es la novedad que lo mueve. En mi opinión es un pequeño paso atrás, que es uno adelante y la clave esta por un lado en la unidireccionalidad del servicio y por otro en el limite de caracteres. No se si termino de explicarme, para alguien que pasa mucho tiempo conectado y saturado de servicios como Messenger, Gtalk y demás (sobre 120 contactos en este momento), los limites propios de Twitter son todo un descanso. Los usuarios se ajustan al medio en el que se mueven y restringen los mensajes a lo importante, comparten lo que quieren, el grupo se mantiene informado de los movimientos del grupo, se elimina todo protocolo, se responde cuando se quiere y lo justo.

Prueben y me cuentan. Ya se de mas de uno que ha abandonado por completo cualquier otra forma de comunicación. Va por ti, Piutus.

P.D: Un día les explico por que es mejor retirar el cambio de estado en los programas de mensajería y como el "always connected" reduce las fricciones con los contactos especialmente irritables.
P.D (2): Se molestan en avisarme de lo excesivamente serios que parecen últimamente los posts y que todavía me quedan 3 ponencias del congreso y un balance del mismo. A ver si puedo solucionarlo hoy mismo.

Marzo 9, 2007

Congreso Ojobuscador2.0, Usabilidad en Buscadores

 

Dnxgroup.com

David y la gente de dnx han estado trabajando en la usabilidad del buscador noxtrum. Un pequeño cambio de programa debido a la dificultad de cómo plantear la ponencia originalmente prevista, la usabilidad 2.0, o usabilidad planteada en proyectos 2.0.

 

Una serie de pautas previas. Va a intentar alejarse de la evangelización de su trabajo como diseñador de interacción, alejarse de las predicciones y intentar no polemizar acerca de la usabilidad en los llamados proyectos 2.0.

 

Los buscadores han cambiado internet, nos dan la posibilidad de contextualizar dentro de este medio. El efecto Google ha sido extraordinario. Un poco el eje del cambio, recordando la situación previa a los años 98/99, son la preocupación por la relevancia, una mejora de la usabilidad y una filosofía mucho mas centrada en el usuario. El tenerlo en cuenta, objetivos y necesidades preside muchos de los proyectos actuales.

 

La usabilidad forma parte integral de la experiencia de uso de un buscador. Por muy buenos que sean nuestros proyectos, por mucho que no nos preocupemos por la experiencia de uso, estamos abocados al fracaso.

 

Vamos a ver dos cosas. Cuales son los momentos de la verdad en cuanto a usabilidad en los buscadores y por otro lado dar unas pinceladas del futuro de los buscadores.

 

¿Como se busca?

Con un objetivo y estrategia: un objetivo claro y una estrategia predefinida, no de manera fortuita.

El proceso de búsqueda es un proceso iterativo, la búsqueda es un proceso que se refina hasta que se consigue lo que se quiere o se abandona.

Las búsquedas que se realizan, las querys, son de pocos términos.

Se fijan solo en los 3-5 primeros resultados. Rara vez pasan página. De hecho a medida que se avanza en las páginas de resultados sin conseguir el objetivo buscado disminuyen el nivel de satisfacción del mismo.

Normalmente sin pasar pagina.

 

La home tiene varios factores a tener en cuenta.

Por un lado el espacio de trabajo, que debe estar ajustado al objetivo de nuestro usuario, para proporcionárselo con la mayor rapidez. El objetivo del usuario es buscar. Hay que focalizar en el interfaz de búsqueda y pretender mantener la consistencia de los mismos.

 

Ejemplo de la interfaz de búsqueda de live. Focalizar sobre el interfaz de búsqueda requiere simplificar, eliminar elementos gráficos que puedan distraer. Por otro lado tenemos elementos comunes que vienen dados por el común de los buscadores.

 

Por un lado esta el ancho y largo de las cajas de búsquedas. Ajustadas al común de las querys. En este caso concreto se puede criticar el botón de búsqueda. Caracterizado por un icono que puede o no ser reconocible. Además por otro lado el tamaño del mismo es mínimo y esta muy alejado del área que ocuparía una query estándar de tres términos. Por tanto se deduce la importancia del tamaño del mismo, su posición y su formato.

 

Nos muestra una captura de pantalla de cómo seria un live 2.0. Con el interfaz de búsqueda descontextualizado, lleno de elementos que pueden distraerlo y perjudicarían a una percepción de los mismos.

 

Usabilidad en los resultados

Es el espacio de trabajo del usuario que busca, el corazón de la experiencia. Para que valgan hay aspectos técnicos importantes, la velocidad (valorada subjetivamente mucho por los usuarios, cuando la realidad es que es muy difícil apreciar diferencias significativas en los mas comunes). Por otro lado la relevancia de los resultados arrojados, obviamente fundamentales.

Hay ademas dos elementos con los que trabajar. Por un lado la consulta y por otro lado la selección que debe hacer el usuario.

¿Que cuestiones tenemos que tener en cuanta aquí?

 

-         Tamaño, color y familia de la tipografía

-         Anchura del párrafo: el tener un ancho que ocupe el total de la pagina dificulta enormemente la legibilidad de los mismos resultados.

-         Color de fondo

-         El numero de resultados. El hecho de tener esa pausa que te proporciona la paginación también implica un cierto descanso mental para el usuario en su proceso de búsqueda.

 

Escaneables: los recursos y las piezas de información de cada uno de ellos.

 

Captura de pantalla de Yahoo! Search. La mayoría de los buscadores generalistas plantean una serie de standares a la hora de mostrar sus resultados. Url en verde, underlined, query en negrita... Estos standares una vez interiorizados por el usuario le permiten adaptar su experiencia de búsqueda. Modificándola de acuerdo a lo que sea mas cómodo, escanear los títulos, escanear las querys en la descripción o si es mas avanzado fijarse en la url e intentar extraer información útil de ella.

 

Actualmente se esta trabajando mucho en como conseguir que a nivel uso sea mas fácil delimitar la relevancia de los resultados.

 

Siguiendo con los "juegos" nos muestra una captura de la campaña de resultados de live, disminuyendo el nivel de contraste de los distintos elementos que conforman la página de resultados. En una segunda y mucho mas claro, eliminando incluso el enlace, queda todavía mas claro el deterioro de la experiencia de búsqueda. Eliminando todo indicativo de distinción de jerarquía ya eliminamos cualquier posibilidad de experiencia.

 

El los resultados: reformular

El interfaz de búsqueda se queda un poco atrás, en detrimento de los resultados.

Spell-check

Sugerencias

 

En el primer google beta no había pestañas ni acceso a las colecciones. En el 2001 aparece ya la metáfora de las pestañas, no en este caso que no presentaba ningún problema, con 4 de ellas. En su opinión todos los buscadores tienen un gran problema en términos de usabilidad, al ofrecer un exceso enorme de accesos a sus colecciones. Como guiar al usuario a un uso correcto de las colecciones?

 

Captura de resultados de uno de los experimentos de google del año pasado. Busco en google y además de los resultados ofrecía en el sector izquierdo el porcentaje de resultados dentro de cada uno de las colecciones y la relevancia dentro de la misma. Pudiendo acceder a las colecciones y además formar como un menú que pueda utilizar.

 

En otro de los experimentos muestra las sugerencias dentro de las colecciones, a modo de sugerencia al final de los resultados (realiza tu búsqueda dentro de: images  groups News...). Tiene sus sentido dado que es normal ofrecerla al final de los resultados, antes de que el usuario abandone la primera página ya que no suele pasar de esta.

 

Ejemplo de Spellcheck en google.

Ejemplo de search.com (subsidiario de Ask), que están ofreciendo el extraer la palabra mas probable de la base de datos y ofrecerla como una query nueva.

 

Respecto al futuro hay tres direcciones que son aprovechables. Que vaticina se darán aunque afirma no saber cuando. Por un lado la presencia de más humanidad. Hasta ahora la carrera ha sido con la maquina (mejorar el algoritmo...). El introducir el elemento humano en la búsqueda, sobretodo a la hora de determinar la calidad del mismo. La preponderancia de wikipedia, la adquisición de sistemas colaborativos y la integración de los mismos conseguirán mejores experiencias de uso y mejores resultados (completamente de acuerdo con el en este punto). Mas ayuda inteligente. Los buscadores disponen de una información ingente del usuario, la utilización de esa misma información para realizar una integración, en por ejemplo, las búsquedas locales.

La tercera linea son los interfaces visuales, que permiten un manejo de información mucho mayor en un espacio mucho menor. Ejemplo de un interfaz que permite manejar una cantidad de datos ingente, generada por Ben Snaiderman.

 

Por interfaces visuales no se refiere en absoluto a las nubes de tags. Lo considera un widget interesante pero no útil a la hora de realizar recuperación de información de un modo concreto e interesante. Como ejemplo mas claro muestra Grok, permitiendo hacer una búsqueda concreta y que te muestre todos tus resultados en una misma pagina y además interactuar con los mismo de forma sencilla e interesante.

Congreso Ojobuscador2.0, Microformatos

Kirai (Hector Garcia) acerca de microformats

El fin &ouacute;ltimo de los microformatos es poner un poco de orden dentro de la web. A finales de los 90 comienza a aparecer la separación entre contenido y diseño. Sin embargo dentro del contenido sigue faltando una estandarización de los mismos. Para ello la gente de W3C esta trabajando en la web semántica, una tarea de gigantes. Como paso previo los microformatos pretenden establecerse como punto medio.

En este momento la ponderación de calidad sobre cualquier cuestión, ya sea calidad de una película, calidad de eventos, esta muy mediatizada por los medios que ofrecen esa información? Como unificamos esa información de forma ordenada? Uno de los ejemplos es Google Base. Una solución completamente cerrada y centralizada, lo cual va en contra de la filosofía de google.

En cambio los microformatos es una solucion abierta y descentralizada.

Para que serviría microformatear la web? Cuando empezara a funcionar de verdad los microformatos? En un principio cuando las herramientas principales empiecen a hacerlo. Algunos que si lo están teniendo en cuenta son Flickr, wordpress y por supuesto, technorati.

Kitchen.tecnorati.com

No solo sirve para organizar y unificar datos si no que facilita también la conversión de datos de forma sencilla. Lo bueno es que además han aparecido algunas formas de usar estos datos de modos algo diferentes (let a hundred flowers blossom ;)) (4106)
Hcalendar, hreview, hGeo, hResume, Votelinks, hRecipa…

Enlaces basicos para aprender mas sobre microformatos:
www.microformats.org
microformats.org/wiki/Main_Page
suda.co.uk/projects

Congreso Ojobuscador2.0, Herramientas de IR

IR Herramientas de software libre para recuperación avanzada de información

Jose Ramon Perez Agüera
Departamento de ingeniería de software e Inteligencia artificial
Universidad complutense de Madrid

Va a intentar dar una visión general y un enfoque mas practico, enfocado a seo en concreto. No pueden evitar horas de programación pero si pueden aportar soluciones útiles. Estará dividida en tres partes. Una aproximación general. Un repaso a las herramientas libres existentes y una tercera dedicada a ejemplos.

Los objetivos serán introducir las nociones básicas de recuperación de información, la base del funcionamiento de los buscadores. El conocer como funciona la trastienda de un buscador, ya sea de forma intuitiva, ya se haciendo ingeniería inversa o de modo teórico, puede ayudarnos como seos a mejorar nuestros resultados. El conocer la tecnología de los grandes buscadores y aplicarlos a nivel local en nuestros propios buscadores puede aportarnos mucha información práctica.

La intención es dar una ponencia dinámica.
Introducción a IR
La definición general es la recuperación de datos desestructurados. No estamos recuperando datos de una DDBB, si no documentos sin una estructura suficientemente definidos como para recuperarlos con suficiente claridad, no esta suficientemente definido. Nuestra intención es devolver a los usuarios los documentos más relevantes para búsquedas pocas definidas sobre ese conjunto de documentos.

Normalmente se trata de recuperación de textos, la recuperación de datos multimedia, ya sea utilizando patrones de vectores o de otra forma es, técnicamente muy compleja y se encuentra en sus inicios.

La interacción típica es:
El usuario necesita información, expresada por medio de una consulta. Actualmente la IR a derivado en la transformación de esas consultas, necesidades de información, expresadas en lenguaje natural, convertidas en una que la maquina sea capaz de interpretar.

Grafico de la arquitectura básica de un buscador.
Crawler pagesranking algorithm ranked documents

Indexer

Indices


Nos vamos a concentrar en el diseño de un prototipo que un seo pueda utilizar.
El primer filtro: el crawler
Hay que tener en cuenta, en primer lugar, que solo accedan a la web visible (sin contraseñas, sin exclusión mediante robots.txt, sin consultas a bases de datos.
Son caprichosos y no les gusta el código sucio.

Básicamente es texto, que los ordenadores no comprenden. Por eso es importante como convierten los algoritmos y como interpretan dichas cadenas. Hemos de ser capaces de codificar en números estadísticamente, el lenguaje natural, el conjunto de la información que disponemos.

Para ello usamos bolsas de palabras, no se prestan atención a las relaciones entre palabras, sintaxis, semántica. Una bolsa caracteriza un documento. Los problemas son que precisamente por ejecutar esa transformación, conceptos como la polisemia y la sinonimia son tremendamente complejos de implementar y diferenciar, aunque se esta trabajando en ello.

“Destrucción de los bosques del Amazonas”
El procesamiento lingüístico, si hay, si que hay uno, muy, muy suave que si se hace. Normalizamos las mayúsculas y las minúsculas, las palabras vacías (lista estática de palabras vacías = “destrucción bosques amazonas”)
Eliminamos sufijos (stemming)
Los buscadores no suelen usarlo directamente.
Razones: Produce resultados no esperados, ¿le gusta al usuario obtener resultados no esperados? Además es dependiente del idioma

Recuperación con ranking
Todo l que se procesa dentro de una “bolsa” permite realizar un cálculo de relevancia entre consulta y los documentos. Ordenamos los documentos en función de este cálculo. Prestamos los resultados ordenados al usuario en función de su relevancia. El conjunto de palabras de la bolsa no tiene en cuenta en principio el orden de las mismas, aunque mas adelante se tocara esta cuestión.

La puntuación de cada documento. Tenemos en cuenta dos conceptos, el documento y porcentaje de aparición del término en relación al número total de términos.
Y por otro lado el número de documentos en los que aparece un término y el número total de documentos dentro de la colección.

. TF (frecuencia de términos). IDF (frecuencia inversa de Documento).

Tf/dl
Frecuencia de un término
ES la importancia de un termino lineal? No
Con Tf e idf estamos asignando un peso a los términos que aparecen en un documento, el ranking total lo hacemos sobre una sumatoria.

Como se comporta idf?
No todos los términos de la consulta son igual de buenos?
Mediante idf podemos medir el grado de especificidad de un término. Ningún buscador trabaja con este simple esqueleto, pero todos parten de este planteamiento y tienen un tratamiento de idf.
Amazon -> Bosques -> destrucción

Robertson’s BM25 es una implementación compleja de idf,tf, mucho mas cercano a lo que están buscando ahora mismo los buscadores. Creador del modelo probabilística por relevancia, ingeniero de Microsoft. Que definen y depuran como tienen que tenerse en cuenta la aparición de términos en documentos y como normalizarlos.

Hay varios modelos de IR
Permiten modelar matemáticamente el proceso de recuperación. Es básico conocerlo para luego construir nuestro modelo. Hay 2 grandes grupos, modelos algebraicos. Modelos de espacio vectorial (smart…), potente, sencillo de entender y de implementar.
Los modelos probabilísticas, como okapi BM25, Language Models, Divergente From Randomness. Entre estos planteamientos, vectorial y probabilísticas, se mueven los grandes buscadores.

Ranking avanzado.
Hasta ahora hemos visto que dos de las cosas que tienen en cuenta son idf y TF. Que mas hay? Análisis de link, popularidad, donde están los términos (litle, body, ref., proximidad, etc…)

Localización de los términos
Al ir más al detalle, sabemos que necesitamos un software que tenga en cuenta la búsqueda por proximidad. Cual es la proximidad entre términos? del mismo modo que lo tienen en cuenta los buscadores. También la estructuración mediante fragmentos. Debemos poder asignar a un fragmento un determinado valor y ordenar los documentos en base a la puntuación del fragmento con mayor valor (después del html y los contenidos ya etiquetados dentro del mismo).
Otra información sobre la localización también debe ser tenido en cuenta, como por ejemplo la url (un elemento externo al mismo). Los metadatos? Realmente los están teniendo en cuenta los buscadores? Tienen un problema grande de confianza. Es en definitiva un problema de definición de heurísticas, que permiten refinar el funcionamiento de los buscadores. “Donde” es uno de los grandes secretos, el salto del trabajo artesanal a un acercamiento al mismo mucho mas desde un punto de vista de ingeniería, sobre un entorno controlado, no ya sobre un buscador ajeno en el que se realiza un trabajo de campo “mas o menos” metodológico.

Podemos hacer la distinción entre Autoridad y popularidad
La IR clásica es algo a lo que se ciñen TODOS los buscadores respetables. Por otro lado, a la hora de trabajar sobre sistemas distribuidos, también es MUY importante, desde el punto de vista de recuperación de información web, QUE y CUANTOS enlazan dichos documentos. Entramos en el problema de Hubs y Autoridades, donde comienza toda esta aplicación industrial de IR.

Recapitulando, necesitamos:
Implementación de algún modelo de IR
Indexación estructura de documentos
Recopilación de palabras y frases.

CLAIRLOB
Implementación en perl
Permite hacer agrupación de documentos o clustering
Indexación de documentos
PageRAnk
Análisis de grafos web
TF-IDF
Stemming
Y un Web crawling un tanto flojo, pero más que suficiente para crawlear la web de un cliente.

Zettair
Implementadas en C
Stemming
Indexación de documentos
Implementa distintas funciones para Modelos de Lenguaje (Dirichlet-smoothed language modelling metric por defecto)
Es una de las librerías mas eficientes para IR

(Resultados preguntas. Al ser modelos estadísticos son independientes del lenguaje. A la hora de procesar documentos acentuados es mas normal tener un modulo de preproceso independiente que los elimine así como las mayúsculas, aunque su recomendación es mantenerlos, son información útil)


Lemur
Uno de los grandes
Implementación den C++
Elaborado lenguaje de consultas
Soporte para indización y recuperación de documentos XML
Permite indexar páginas web de forma transparentes
Interfaces interactivos en distintas plataformas
Indexación incremental
Varios algoritmos de stemmig
Soporte para distintos formatos de documentos
Centrado en distintos modelos de lenguaje
En cuanto a recuperación soporta distintos algoritmos de reordenación de resultados PageRank, URL depth
Bueno para investigación científica

Xapian
C++
De cara a montar un buscador es mas robusto
Hace un poquito de todo (metemos prisa)

Terrier
Implementación en Java
Permite el manejo de colecciones de gran tamaño
Api completo
Permite expansión de consultas
Ligeramente inmaduro como software de producción
Interface


Lucene
Su favorito, esta enamorado ;)
Ports completos a multitud de lenguajes, de los mas robustos y mas extendidos como software de producción.
ZendSearch para PHP
Implementa modelo de Espacio Vectorial
Podemos indexar documentos estructuraos
Completo lenguaje de consulta
Búsquedas por proximidad
Stemmin
Tiene un interface, Luke, que no sirve para indexar, pero si para trabajar con el conjunto de documentos, además de mostrarte como esta rankeando al vuelo un determinado termino del documento.

Nutch
Implementación de un buscador web basado en Lucene.


Caso 1: estudiamos una web
Caso 2: comparamos dos webs, competidoras y ver como rankean

Marzo 8, 2007

Congreso Ojobuscador2.0, Kirai (Hector Garcia)

Conferencia Kirai
Comienza la conferencia con una presentación sorpresa de kirai y su trayectoria profesional, además de ser un autentico personaje de la blogosfera es un autentico ejemplo.

Technorati y los blogs en Japón. Nos pone un poco al día de los orígenes de technorati, joe Ito y su garaje. Nos muestra la versión japonesa de technorati.

Para el uno de los aspectos interesantes es que te muestra lo que se “esta hablando” en la Web en este momento. Que videos son los más comentados? Que keywords son los más buscados?

Como todo el mundo tiene buscador de blogs en este momento, ellos están intentando diferenciarse por medio del etiquetado, la forma de mostrar los resultados, y lo que es su “pagerank”, cual es la autoridad de un blog? Cuantos blogs relevantes le enlazan.
Muestra la grafica donde podemos ver de un solo vistazo el número de veces que determinado término ha aparecido cada día en un periodo de tiempo. Indica que es ligeramente distinto de google trends, que muestra el numero de búsquedas para dicho termino en un periodo determinado (podemos compararlos y superponerlos para encontrar huecos en los que la demanda de información no ha sido satisfecha por los blogs).

Kira se levanta para comunicar mejor. Tommy le recuerda que la conferencia esta siendo retransmitida por radio nacional. A diferencia de otros buscadores el spider de technorati se diferencia en que solo se mueve a través de un ping que realiza una pagina/blog cada vez que se actualiza. Eso facilita la actualización inmediata. Actualmente reciben unos 50 millones de ping, de los cuales 45% vienen a ser spam.

Son el buscador de blogs con mas blogs indexados, 75 millones. El mensaje es que con technorati usan la información que tienen para mostrar quien habla de que en cada momento. Una forma de monetizar es comparar el buzz generado por campañas simultáneas y dividir entre negativos y positivos, generando informes de interés. Algo muy útil en inteligencia digital.

Nos muestra el grafico correspondiente al lanzamiento de la wii, un grafico muy distintivo con un sector mínimo con pequeños picos, correspondiente a los comunicados de prensa previos y un incremento impresionante en las fechas del lanzamiento.

Por que es el japonés el idioma líder de la blogosfera? Ethnologue.com tiene un ranking con los idiomas mas hablados ahora mismo, situando el español en segundo lugar por detrás del chino, el ingles el tercero y el japonés en octava posición. Como es entonces esto posible? Se le fastidia “la mejor foto de toda la conferencia”, una superposición del área urbana de Tokio sobre las de maniatan, alcobendas y Madrid todas juntas, quedando Madrid ridículamente pequeña.

Para poder vivir todos juntos tienen una red de comunicaciones terrestre terriblemente compleja. Además necesitan una red de comunicación móvil mucho mas avanzada, al menos en cuanto a nivel y utilización de aplicaciones. Todo el mundo envía emails por el móvil desde el año 1999 el titular de la Diago es “en Japón disponen de tarifas móviles razonables desde 1999”, cosas normales: velocidades de 2.4Mbps desde 2005.

Una de las claves es la multitud de operadores móviles que existen en Japón (esta dando caña desde el principio, como debe ser). Lo definitorio es que casi todo el mundo actualiza su blog desde el móvil, lo cual redunda en una menor “calidad” de los blogs, pero es lo que hay.

Creo que no voy a ser capaz de transmitir lo cercano y divertido que esta siendo Héctor, con sus fotos, sus comentarios y su forma de presentar, así que no lo voy ni a intentar, solo voy a apuntar que se agradece enormemente a estas horas.

Vamos a ver que dice technorati de España. En un grafico pone unos cuantos medios tradicionales y blogs conocidos, agrupados por cantidad de inbound links, links entrantes. Sin ganar, los blogs si que pueden competir con medios tradicionales tan conocidos como el ABC. En este otro intenta mostrarnos como el problema actual del spam, en concreto el chino y el ruso. Supone todo un esfuerzo luchar contra ello.

Muestra 4 graficas que comparan el nivel de posts según franjas horarias. El chino y el japonés son muy similares. El español tiene un bajón a las 7 de la mañana que va subiendo a medida que transcurre la mañana. Sospechoso. ;)

Muestra un par de formas más de monetizar el trabajo hecho en technorati. Widgets para integrar en periódicos, Suministran términos automatizados que se están usando para hablar de determinado producto.

En la siguiente grafica muestra un esquema de la internet japonés, destacable la falta de presencia de google, un pequeña presencia de yahoo. La red social Mixi, you Tube (en Japón busca mas gente youTube que en todo el mundo), 2ch.net. Una web tremendamente simple, tirando a cutre/horrible, pero que lleva funcionando desde la época de los bbs. Simplísima, pero que millones de personas usan. Nos muestra otra mas, que es un comparador de precios (apunta que ahora mismo no hay ningún líder dentro de ese tipo de paginas en España). Mixi, después de yahoo y la página esta simple, es la tercera página mas utilizada.

Congreso Ojobuscador2.0, Google

Ponente: Steve Crossan
Product manager for Search Quality, working from Zurich, him and Enrique.
He wants to introduce us a few tools to do our life as webmasters easier. He wants us to feel free on doing questions, in Spanish or English. Ask how many people are using now webmaster Central's tools.

Their mission
Organizar la información proveniente de todo el mundo y hacerlo accesible y útil de forma universal.
Aclara que para ello son importantísimos los webmasters y por ello los cuidan con sus herramientas.

Graphic
Overview of crawling and indexing
Un pequeñoo grafico que muestra de forma resumida el modo en que google rastrea los resultados, trabajando con versiones cacheadas y sirviendo los resultados. La dificultad de esto, como nos podemos imaginar, es enorme. Uno de los métodos de aligerar y hacer más fácil para los dos lados el indexado de números tan enormes de urls es google sitemap.

Questions Webmaster Central Can Answer? preguntas, por si alguien del público quiere hacer alguna pregunta acerca de cualquier aspecto misterioso en la forma de funcionar de Google. ¿Como indexa?, ¿por que ciertas urls de nuestros sitios no están indexadas? este tipo de cuestiones. Apunta también a webmater central blog (Official Google Webmaster Central Blog) como uno de los mejores métodos de estar actualizado acerca en las herramientas y usos que puedan darle.

Empieza a revisar webmaster tools por una captura de la primera pantalla. Aclara que el primer paso es el de la verificación, un sencillo paso que una vez hecho te permite conocer un montón de información acerca de nuestros sitios que Google comparte con nosotros. Query Statistics for particular terms. Nos proporcionan un montón de información acerca de cuales son las búsquedas que mas trafico dirigen. En otra de las pestañas tenemos datos estadísticos de algunos de los datos que ponen en contexto a nuestra página para google: codificación de los archivos de nuestro site, tipo de distribución, tipos de contenidos…


Pasa al siguiente paso, una de las ultimas actualizaciones, Crawl Rate Control, especialmente interesante para sitios que no pueden soportar los ritmos de indexado regulares de las arañas de Google.

Take a look to some graphs about googlebot activity, another very useful tool, Wich external sites are linking to you? Como vé google tu estructura interna de enlaces?
Dos elementos clave de webmaster central tools, Re-Inclusion & Spam Reports Forms. A veces se equivocan (jajaja, todo un ejemplo de humildad), para esos casos esta este formulario de reinclusión accesible. La otra herramienta es para dar algo de feedback acerca de sitios que pueden estar pisando tus resultados, siendo spammers.
Robots.txt, que nos permite identificar y apuntar a Google cuales son los contenidos específicos de nuestro sitio que no queremos que sean indexados por el motor. Toda la información acerca de robots.txt esta incluida.
Herramientas de diagnostico, por que algunas de las paginas no están siendo indexadas, que urls dan error y que tipo de error es el que dan.
Sitemaps let webmasters tell google about their sites.


Congreso Ojobuscador2.0, MSN/Windows Live

(Aclarar que se me ha quedado atrapada la anterior presentación, de Google, en mi portátil. Estoy usando el que amablemente me ha cedido Carlos, que ha venido con FranceTelecom)
Presentación de Ismael El-Qudsi

¿Que es live? ¿Que diferencias hay con Msn?
La mayor apuesta de microsoft por Internet.
No es rebranding o cambio de marca.
Una recopilación de servicios (40) que unifica tu mundo online
No es windows en internet, es una extensión de windows.


Live Vs Start
(Start fue el primer agregador de contenidos, inicio de live. Se cambio la marca por motivos de branding, Windows start es un poco friki). ¿La principal ventaja? es mas rápido (en 5 minutos le ha dado tiempo a chinchar a google y a firefox y a hacer una buena broma acerca del primero...). Nos muestra las ventajas de windows live, muestra el buscador de imágenes, completamente hecho en Ajax (mete la puntilla de que también Microsoft fueron los primeros en implementarlo).
Además en vez de abrirte solo la imagen, te muestra la página entera enmarcada, manteniendo en un scroll izquierdo los resultados de la búsqueda previa, en un scroll infinito, con lo cual no hay que entrar y volver a la página de búsqueda a no ser que quieras refinarla o modificarla.

Dentro del buscador de noticias muestra una forma de agregación más rápida, dentro de la misma página de resultados, con lo que podemos incluir la feed a la página de inicio de windows live. Como novedad el uso de gadgets que pueden ser creados ("fácilmente") para live.com, supongo que gracias a kits de desarrollo que estarán distribuyendo, me suena que si, pero no recuerdo exactamente cuando o si yo me estoy equivocando.
Momento Risto con Tomy, le regalan una camiseta de España, para que se españolice. Ismael se quita la camisa y lleva puesta por debajo la camiseta del congreso, personalizable.


Dentro de las novedades interesantes, la posibilidad de crear dentro de nuestra pagina de inicio, una, digamos que para una temática concreta, SEO en este caso, agregando las feeds que considere oportunas y el poder enviar un enlace a esa plantilla, que con un solo clic abre nuestra pagina de Windows live y nos pregunta si queremos agregar la pagina de inicio. Una forma simple de compartir nuestras feeds con otros usuarios. Nos hacen una pequeña muestra del uso de gadgets dentro de Windows live, incluyendo contenidos de Flickr, la competencia y otros como nacional geographic.
Además muestra ejemplos de personalización dentro del filtrado de resultados de Windows Vista, integrado directamente en un Gadget.


En la siguiente fase de la presentación retoma Ismael, enseñándonos una nueva funcionalidad que tienen contratada con una empresa por los próximos 5 años, la vista de pájaro, que complementa a la aplicación de mapas de Microsoft. Muestra NY y Vegas (ains, nostalgia), en España la primera ciudad que tuvieron con esta ampliación fue Córdoba, pero ahora mismo hay más y siguen ampliando. Pone el ejemplo de querer organizar una boda y poder hacer la ruta, agregando marcadores con notas a los mapas. Gratis, claro. Como fin nos pone una beta de hace 8 meses en la que podemos mover un vehículo en un mapa 2D en la parte inferior de pantalla, mientras en la parte superior podemos ver actualizadas las imágenes con la perspectiva desde dentro del coche. Aplicaciones practicas actuales ninguna, pero posibilidades muchas.


Ejemplos de apis desarrollados por live con las que poder desarrollar y hacer aplicaciones propias conectando con los servicios de Live. Primer ejemplo, crear robots para Messenger, (ejemplo del archiconocido robot de encarta). Competencia de Yahoo Ask (Tomy le esta achuchando con lo del tiempo, por segunda vez, pero Ismael aguanta el tipo). Acaba con Photosynth, anunciada la preview hace tiempo, aunque no es muy conocida y que es completamente espectacular, un caballo de batalla para el futuro de Microsoft.

 

*Actualización: parece ser que todo el tema de las prisas a la hora de acabar la presentación motivo que se haya hablado de mal rollo con Live o Ismael. Tomy Lorch se ha apresurado a aclarar las cosas, "Ismael te queremos", en el blog de ojobuscador.

Congreso Ojobuscador2.0, presentacion

Comienza el congreso de ojobuscador, una pequeña cola y un pequeño retraso en el congreso, pero da comienzo. Como siempre transcribo mis notas y salvo algún apunte critico que pueda meter al vuelo, no haré un análisis de las ponencias, con lo cual tómenselas como tales.

Comienzan con unas palabras de agradecimiento de Javier Casares y Conrado Castillo Serna de red.es. Da unos cuantos datos acerca del estado de la red en España y la importancia en concreto que tienen los buscadores dentro de los participantes de esta sociedad de la información.

Dan paso a Tomy Lorsch, también para hablar del congreso, intenciones y estado. Hace un par de apuntes acerca de la progresión del sector y la evolución de profesionales dentro del mismo. Las ganas con las que se han quedado de poder hacer un congreso mas participativo, al menos en cuanto a escuchar cuales hubieran querido, los asistentes del primer congreso ojo, como ponentes en este segundo buscador. Sin embargo se intentara en el siguiente y prestaran mucha atención al buzz generado en la blogesfera por el congreso. Buena cosa.

Miguel Acosta (corregido, al vuelo. Sin una razón lógica, había escrito Ismael, mis disculpas, cosas del directo) habla de Ask, el trabajo que están haciendo, las partes como clientes y la parte como desarrolladores de un motor de búsqueda.
El ROI, como miden el SEM en el buscador (este esquema es muy interesante, Total búsquedas > Coverage (indica las veces que se ofrece un resultado patrocinado) > CTR > PPC = RPS (ingreso por búsqueda)).
 

Explica por que no ofrecen SEM y cual es el motivo de tener un acuerdo con google para eso. Estrategia de la compañía, enfocada al índice natural. Coste de crearlo es muy elevado y requiere gran cantidad de trafico para ser exitoso. Diferenciación: en un mundo perfecto, sin arbitraje ¿No deberían ser los enlaces patrocinados en todos los buscadores?

El índice natural. Todo su esfuerzo esta localizado en eso. Un sistema de ordenación distinto, basado en la tecnología de Teoma "expertank", basado en la relevancia de las fuentes, comunidades, ranking en función de la importancia. Quieren jugar con "ya que solo ves 10 resultados (el usuario), por lo menos comprueba los nuestros también". ExpertRank es una tecnología que aprende sola, 10 veces mejor que el año pasado, y esperan mejore el año que viene. Ejemplo de funcionamiento del ExpertRank para los términos "aborto" (diferenciando entre comunidades pro y contra) y "apache" (diferenciando hasta tres "comunidades" distintas).
Cuatro áreas en las que se debe enfocar el SEO en las que se concentrara en el día de mañana. Presentación y diseño del sitio, buenas practicas...

¿Están SEM y SEO conectados? Se podrían argumentar dos enfoques. Ask plantea, ¿que ocurriría si a la hora de calcular el ROI los uniéramos? suma SEM mas Trafico SEO, dividido entre inversión global, mayor ROI, incluso en caso de perdidas en una de ellas.

Mas sobre Ask, buscador de imágenes, buscador de blogs, la barra de MyAsk, Smart Answers...
La distribución, ejemplos de acuerdo para la distribución de contenidos. ¿Que incluir en un sitio de contenido?
Distintas opciones publicitarias, anuncio grafico, enlaces contextuales, cajetín de búsqueda, combinación de la tres alternativas. En que casos compensa incluir un cajetín de búsqueda? si es solo monetizar el objetivo, entonces no interesa. Si se va a ver el cajetín como un servicio añadido para el usuario, entonces si interesa.
Ventajas de trabajar con un mismo proveedor o con varios.

Variables para decidir que plataforma utilizar. En teoría (tirando para casa) en la que menos anunciantes tenga, por una cuestión de saturación es lógico, pero como bien apunta, también es cierto que hay que hacer una ponderación entre un PPC menor pero Mas trafico y un nicho menor y mayor PPC. Importancia del factor Tracking y seguimiento, de la atención que te ofrecen como cliente, capacidades de gestión, reporting...

El futuro ASKX, su plataforma de testo. Cambian las reglas del juego, es la búsqueda la que genera el portal que muestra. Pone el ejemplo de Madona (el mismo que expuesto es el blog de ojobuscador no hace mucho tiempo ;)). Más ejemplos.
Despedida

Marzo 6, 2007

ConceptDraw MindMap 4, by the face.

mindmap.conceptdraw.packaging

Si se dan prisa todavía llegan a descargarse ConceptDraw MindMap 4 (Pagina del producto), una excelente aplicación para crear mapas conceptuales que ademas permite importar desde Mindjet. Normalmente una licencia viene a costar 119$, pero gracias al programa "GiveAway of the Day", podemos descargarnos una versión completa, funcional al 100%, GRATIS. Les quedan unas 10 horas...

Tic, tac, tic, tac...

Descargar Concept Draw MindMap 4

Marzo 4, 2007

The Internet from Web1.0 till Web4.0 in one picture

Desde la web1.0, a la web4.0, en un solo grafico

Gracias Hector!

Arriba | Inicio | Contacto | Suscribirme | Este Blog tiene una licencia Creative Commons | Quien esta detras de Minoslab?