Lucene
De Wikipedia, la enciclopedia libre
Lucene es un API para recuperación de información de código abierto, originalmente implementada en Java por Doug Cutting. Está apoyado por el Apache Software Foundation y se distribuye bajo la Apache Software License. Lucene tiene versiones para otros lenguajes incluyendo Perl, C#, Ruby y C++.
Es útil para cualquier aplicación que requiera indexado y búsqueda a texto completo. Lucene ha sido ampliamente usado por su utilidad en la implementación de motores de búsquedas, lo cual ha llevado a la falsa idea de que Lucene es un motor de búsquedas con funciones de "crawling" y análisis de documentos en HTML incorporadas.
El centro de la arquitectura lógica de Lucene se encuentra el concepto de Documento(Document) que contiene Campos (Fields) de texto. Esta flexibilidad permite a Lucene ser independiente del formato del fichero. Textos que se encuentran en PDFs, páginas HTML, documentos de Microsoft Word, así como muchos otros pueden ser indexados mientras que se pueda extraer información de ellos.
Nutch es un software que, sobre la base aportada por Lucene, integra todo lo que hace falta para completar un motor de búsqueda de páginas web.
[editar] Versiones
Lucene tiene o se encuentran en desarrollo versiones para varios lenguajes de programación además de Java:
- Lucene4c - C
- CLucene - C++
- MUTIS - Delphi
- NLucene - .NET
- Lucene.Net - .NET
- Plucene - Perl
- Pylucene - Python
- Ferret y RubyLucene - Ruby
- Zend Framework (búsquedas) - PHP
- Nutch - PHP
- Montezuma - Lisp