Dmoz, el gran directorio publico

Escrito el 8 Febrero, 2001 – 9:03 | por storm | 4.087 lecturas

Dmoz es un enorme directorio publico que se propone la epica tarea de catalogar toda la web. Este articulo describe el proyecto, como usar la base de dmoz, como colaborar con el proyecto y como agregar features de dmoz a un sitio. Quienes no conocen Dmoz descubriran un nuevo y fascinante mundo, quienes lo conocen disponen aqui de una excelente referencia para sacarle el mayor provecho posible.

Dmoz: El proyecto de directorio publico

Por Garland Foster

Directorios en internet

Todos los usuarios de internet usan habitualmente buscadores (search engines), pero pocos
saben que los sites de busqueda pueden clasificarse claramente en dos categorias: buscadores y directorios. Un buscador se dedica a recorrer la web, bajar paginas, indexarlas y almacenar los datos indexados de las paginas en estructuras de datos diversas de forma tal que cuando el usuario busca una informacion determinada se accede al indice y se devuelven las paginas que corresponden a su consulta. Altavista, Infoseek, Excite, Lycos y Google son claros ejemplos de esta categoria. Un directorio en cambio es una “clasificacion” de paginas web en categorias, en un directorio existe un arbol de categorias y sub-categorias y cada sitio web es clasificado en una o mas de una categorias segun sus contenidos, el usuario puede navegar el arbol en busqueda de un tema o categoria determinada para observar todas las opciones o buscar ingrensando como palabras claves las categorias de busqueda, la busqueda en un directorio alcanza los nombres de categorias y la descripcion de los sites pero no necesariamente el contenido de los mismos.

Como podemos observar buscadores y directorios no tienen demasiado sentido en forma aislada y suelen aparecer en conjunto, de esta forma Yahoo y Google son buenos ejemplos de “directorios” que ademas de clasificar a los sitios los indexan utilizando un motor de busqueda.

Este articulo es sobre directorios, concretamente sobre uno de ellos por lo que vamos a dejar de lado a los buscadores.

Humanos versus maquinas

Para armar un directorio es fundamental “clasificar” el contenido de cada sitio de acuerdo al arbol de categorias que se maneje. Para ello hay dos alternativas, la clasificacion manual o la clasificacion automatica realizada por algun algoritmo. La clasificacion automatica es ideal pues requiere pocos o casi ningun recurso, es barata y muy veloz, pero lamentablemente no se ha llegado aun a ningun metodo o algoritmo que permita realizar una clasificacion humana que pueda calificarse por lo menos de satisfactoria. La clasificacion realizada por humanos parece seguir siendo necesaria con el consiguiente costo de recursos y tiempos que involucra.

El proyecto Dmoz

El proyecto Dmoz consiste en la construccion de un gigantesco directorio de paginas web clasificadas por humanos, de acceso y uso libre y gratuito para todo el mundo. Dmoz surge como iniciativa de Netscape por lo que hay varias condiciones de uso establecidas por Netscape que no afectan en absoluto la naturaleza abierta y gratuita del proyecto.

Dmoz basa su exito en el reclutamiento de “editores” que se encargan de colaborar con categorias especificas sobre las cuales tengan conocimiento o hayan realizado investigacion, siguiendo normativas basicas establecidas en este documento los editores pueden ingresar sitios en sus respectivas categorias aumentando de esta forma el tamaño del directorio.

Dmoz ha clasificado hasta el momento ‘CANTIDAD’ de sites y es usado por varias organizaciones y motores de busqueda como por ejemplo Google que es largamente el mejor buscador de toda la web.

Colaborando con el proyecto

Para colaborar con Dmoz es necesario convertirse en editor de una determinada subcategoria, quienes esten interesados en colaborar con el proyecto pueden seguir este link para enterarse de como postularse como editor de Dmoz.

Como agregar un sitio a Dmoz

Para agregar un sitio a Dmoz no es necesario ser editor sino que simplemente puede completarse un formulario que luego es revisado por alguno de los editores de Dmoz y agregado al directorio si los datos son correctos. Dmoz es un directorio que “filtra” los sitios de acuerdo a su calidad exigiendose un minimo indispensable de “seriedad”, sitios plagados de avisos comerciales, sitios claramente mal construidos, etc pueden ser rechazados por los editores.

Usando Dmoz desde un site

Dmoz es un recurso muy valioso para cualquier portal, por brindar una importante fuente de informacion a los usuarios, el uso de Dmoz puede variar de acuerdo a lo que cada sitio quiera hacer, una opcion es por ejemplo agregar un “buscador” que acceda a Dmoz para buscar contenidos, lo cual puede hacerse facilmente utilizando el siguiente fragmento de codigo html:

<center><small><form method=get action= “http://search.dmoz.org/cgi-bin/search”><input size=20 name=search><input type=submit value=”Search Open Directory”><br> <a href=”http://dmoz.org/”><b> dmoz.org</b></a> </form></small></center>


dmoz.org

Otra opcion es mostrar directamente a los usuarios una pequenia fraccion del arbol de categorias para que los usuarios browseen directamente el arbol de directorios de Dmoz, de la forma:

<center> <table bgcolor=”#000000″ cellspacing=0 cellpadding=1 border=0><tr><td> <table bgcolor=”#f0f0df” cellspacing=0 cellpadding=6 border=0> <tr><td colspan=2 align=center><small> <b><a href=”http://dmoz.org/”>Search Open Directory</a></b> </small></td></tr><tr><td><small><b> <a href=”http://dmoz.org/Arts/”>Arts</a><br> <a href=”http://dmoz.org/Business/”>Business</a><br> <a href=”http://dmoz.org/Computers/”>Computers</a><br> <a href=”http://dmoz.org/Games/”>Games</a><br> <a href=”http://dmoz.org/Health/”>Health</a><br> <a href=”http://dmoz.org/Home/”>Home</a><br> <a href=”http://dmoz.org/News/”>News</a><br> </b></small></td><td><small><b> <a href=”http://dmoz.org/Recreation/”>Recreation</a><br> <a href=”http://dmoz.org/Reference/”>Reference</a><br> <a href=”http://dmoz.org/Regional/”>Regional</a><br> <a href=”http://dmoz.org/Science/”>Science</a> <br> <a href=”http://dmoz.org/Shopping/”>Shopping</a><br> <a href=”http://dmoz.org/Society/”>Society</a><br> <a href=”http://dmoz.org/Sports/”>Sports</a><br> </b></small></td></tr></table></td></tr></table> </center>

Search Open Directory
Arts
Business
Computers
Games
Health
Home
News
Recreation
Reference
Regional
Science
Shopping
Society
Sports

Otros sitios que necesiten otro tipo de acceso a Dmoz o hacer uso de una customizacion especial en el directorio evitando dirigir a sus usuarios a Dmoz pueden construir sus propias aplicaciones directamente a partir de la base de datos de Dmoz

La base de datos Dmoz

La base de datos de Dmoz es publica y puede ser downlodeada(!) por quien quiera para hacer uso de la informacion en la misma, esto es ideal para sitios que deben manipular u ofrecer esta informacion en alguna form especial o altamente customizada a sus usuarios. Dmoz utiliza XML para almacenar sus datos utilizando el vocabulario RDF que resulta ideal para describir la estructura de Dmoz. Basicamente puede accederse a 2(dos) archivos, uno que contiene la estructura del arbol de categorias de Dmoz (sin links) y que puede downlodearse siguiendo este link y otro con todo el arbol y sus correspondientes links que puede bajarse desde aqui. Advertimos que los archivos son realmente muy grandes (Links=163 Mb comprimidos), por lo que se necesita espacio y mucha capcidad de procesamiento para manipularlos.

Para aquellos que quieren enterarse sin bajar los archivos aqui van dos ejemplos cortos del formato utilizado por Dmoz.

Base de categorias


<RDF xmlns:r="http://www.w3.org/TR/RDF/"
     xmlns:d="http://purl.org/dc/elements/1.0/"
     xmlns="http://directory.mozilla.org/rdf">

<Topic r:id="Top">
   <tag catid="1"/>
   <d:Title>Top</d:Title>
   <narrow r:resource="Top/Arts"/>
   <narrow r:resource="Top/Business"/>
   <narrow r:resource="Top/Computers"/>
</Topic>

<Topic r:id="Top/Arts">
   <tag catid="2"/>
   <d:Title>Arts</d:Title>
   <narrow r:resource="Top/Arts/Books"/>
   <narrow r:resource="Top/Arts/Music"/>
   <narrow r:resource="Top/Arts/Television"/>
   <narrow r:resource="Top/Arts/Writing"/>
</Topic>

<Topic r:id="Top/Business">
   <tag catid="3"/>
   <d:Title>Business</d:Title>
   <narrow r:resource="Top/Business/Consulting"/>
   <narrow r:resource="Top/Business/Marketing"/>
   <narrow r:resource="Top/Business/Entrepreneurs"/>
   <narrow r:resource="Top/Business/Insurance"/>
   <narrow r:resource="Top/Business/Industries"/>
   <narrow r:resource="Top/Business/Investing"/>
</Topic>
</RDF>

Base de links


xmlns:d="http://purl.org/dc/elements/1.0/"
     xmlns="http://directory.mozilla.org/rdf">

<Topic r:id="Top">
   <tag catid="1"/>
   <d:Title>Top</d:Title>
</Topic>

<Topic r:id="Top/Arts">
   <tag catid="2"/>
   <d:Title>Arts</d:Title>
   <link r:resource="http://www3.bc.sympatico.ca/PHILLIPSHOTGLASS/GlassPage.html"/>
</Topic>

<ExternalPage about="http://www3.bc.sympatico.ca/PHILLIPSHOTGLASS/GlassPage.html">
   <d:Title>John phillips Blown glass</d:Title>
   <d:Description>A small display of glass by John Phillips</d:Description>
</ExternalPage>

<Topic r:id="Top/Business">
   <tag catid="3"/>
   <d:Title>Business</d:Title>
</Topic>

<Topic r:id="Top/Computers">
   <tag catid="4"/>
   <d:Title>Computers</d:Title>
   <link r:resource="http://www.cs.tcd.ie/FME/"/>
   <link r:resource="http://pages.whowhere.com/computers/pnyhlen/Timeline.html"/>
</Topic>

<ExternalPage about="http://www.cs.tcd.ie/FME/">
   <d:Title  proygt;FME HUB</d:Title>
   <d:Description>Formal Methods Europe (FME) is a European organization supported by the Commission of the European Union (via ESSI of the ESPRIT programme), with the mission of promoting and supporting the industrial use of formal methods for computer systems development.</d:Description>
</ExternalPage>

<ExternalPage about="http://pages.whowhere.com/computers/pnyhlen/Timeline.html">
   <d:Title>Computer Timeline</d:Title>
   <d:Description>A brief description of the eras in computing.</d:Description>
</ExternalPage>

</RDF>

Conclusion

Dmoz es un proyecto extremadamente importante y util para la web, al ser un proyecto abierto esta recibiendo apoyo y siendo usado por gran cantidad de sitios y organizaciones, el acceso y uso de los datos recopilados por Dmoz es muy valioso para grandes sitios, portales genericos, buscadores y sitios especializados. Los sitios altamente especializados que consideran la informacion de Dmoz insuficiente pueden incorporarse al proyecto como editores permitiendo facilmente la extension del directorio.

Garland Foster

You must be logged in to post a comment.

Buscar: