Da Hacklaviva
Casos de estudo | Entidades | Ferramentas | Apps
Listagem de todas as ferramentas que interessam ao projecto e possam estar a ser usadas por outras comunidades. Privilegiamos ferramentas open source, até porque as há em qualidade e variedade, ainda que não coloquemos de lado outras que nos ofereçam vantagens óbvias.
| Índice |
|---|
|
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
|
A
Ferramenta de extracção de texto de documentos não estruturados, conferindo estrutura e sentido. O AlchemyAPI destaca-se por ser gratuito de um conjunto de outras ferramentas do mesmo âmbito: AlchemyAPI Basic, Professional, Metered. Segundo dados da empresa, esta API recebe por dia 30 mil pedidos.
- Autoria - empresa Orchestr8, especialista em text mining e tagging
- Características
- utiliza estatística para o processamento da linguagem natural
- utiliza algoritmos para análise do conteúdo
- usa NER named entity recognition
- possui sistemas para controlar ambiguidade
- extrai dados semânticos: pessoas, lugares, organismos, tópicos, línguas, etc.
- lida com páginas web, textos, documentos digitalizados
- faz tagging automático
- extrai tópicos e frases
- categoriza conteúdo
- identifica a língua do texto objecto de análise, fazendo a gestão das várias línguas
- permite, quando se extrai directamente de páginas web, remover tudo o que é acessório (tabs, navegação, etc.), ficando só o conteúdo
- possibilita extrair por query (só certos dados)
- funciona com microformatos e vários formatos de feeds que detecta automaticamente e extrai
- Integração
- Possui aplicações próprias para a função de extracção:
- Alchemy Tagger que sugere tags para Wordpress
- Alchemy SEO extrai keywords da página e transforma em web semântica para os motores;
- Alchemy YahooPipes permite associar semântica aos feeds;
- AlchmyCmd é uma aplicação de linha de comando que apoia na processo de tratamento de linguagem natural em ambientes Unix
- Funciona com aplicações terceiras:
- Wandora,
- JackBe Presto Cloud,
- Apache UIMA,
- Paterva Maltego,
- Ka, SimpleTags para wp,
- Bradersheet,
- WithWaves,
- OpenLink Virtuoso
- Tecnologia suporte
- Funciona com muitas linguagens: Java, C/C++, C#, Perl, PHP, Python, Ruby..., estando disponível o SDK respectivo para desenvolvimento
- Licença e uso
- gratuito o pacote Free, alto rendimento para educação e organizações sem fins lucrativos
- registo
- chave para acesso à API
- demo
- Tags - extrair texto, pnl, processamento em linguagem natural, semântica, saas
- Testes
- Experimentei a demo e fiquei surpreendida porque funciona bastante bem. Usei um artigo do Jornal de Letras sobre Chico Buarque.
- Identificou com grande acerto entidades, língua, local, categoria. É claro que aqui não distingue pessoas reais de ficcionais e coloca o Napoleão como lugar, mas está óptimo.
- Language: portuguese
- Person (8): Matilde, Leite Derramado, Chico, Chico Buarque, Jorge Luís Borges, Maria Eulália, José Costa, Eulálio
- Country (2): Brasil, Montenegro
- City (5): Budapeste, Eulálio, Paris, Copacabana, Napoleão
- Organization (1): Fluminense Football Club
- HealthCondition (1): cabeça
- Tags (13): Jorge Luís Borges, Eulálio d'Assumpção, Maria Eulália, José Costa, Velho Francisco, Football Club, romance chico, classe média, Dom Casmurro, Brás Cubas, merecer desenvolvimento, Montenegro d'Assumpção, República Velha
- Category: Arts & Entertainment (confidence: 0.8499)
G
GATE General Architecture for Text Engineering
Solução muito estável com início em 1995 e participação de universidades do Reino Unido. É usado quer no mundo empresarial quer no académico, servindo muitas finalidades.
- Autoria
- Tecnologia suportada
- escrita em java
- Tags - extrair texto, pnl, processamento em linguagem natural, semântica
M
- Autoria
- Tags - extrair texto, pnl, processamento em linguagem natural, semântica
N
NLTK.org Natural Language Toolkit
Biblioteca em python iniciada em 2005, muito bem orientada e assente em bibliotecas de processamento de linguagem recentes. Contém muito boa informação e documentação de apoio. Disponibiliza corpora, colecções de gramática, modelos para usar (ver howtos).
- Autoria -
- Tecnologia - Python
- Licença e uso - open source
- Tags - extrair texto, pnl, processamento em linguagem natural, semântica
O
A grande vantagem desta API é ter como background a maior colecção de textos.
- Autoria - Reuters
- Tags - extrair texto, pnl, processamento em linguagem natural, semântica, saas
P
Solução mais básica sem a versatilidade de ferramentas de análise semântica. Porém, nalguns casos pode ser o suficiente.
- Autoria -
- Características
- funciona com mysql
- usa lista de stopwords e outras técnicas de indexação e classificação básicas (baysian para medir a semelhança de textos)
- associa as palavras às keywords dadas ao sistema
- Tags -
Z
A sua API é bastante conhecida de serviços de blogues: blogger, wordpress, drupal. De forma muito simples, ajuda ao tagging automático, sugerindo recursos extra a complementar o texto
- Autoria - Reuters
- Tags - extrair texto, tagging, processamento em linguagem natural, semântica, saas
Zemanta: offers an API with automatic tagging, among many other features.
