Transparência/Documentação/Ferramentas

Da Hacklaviva

Ir para: navegação, pesquisa


Documentacao.png


Casos de estudo | Entidades | Ferramentas | Apps



Listagem de todas as ferramentas que interessam ao projecto e possam estar a ser usadas por outras comunidades. Privilegiamos ferramentas open source, até porque as há em qualidade e variedade, ainda que não coloquemos de lado outras que nos ofereçam vantagens óbvias.


Índice

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z



A

ALCHEMY API

Ferramenta de extracção de texto de documentos não estruturados, conferindo estrutura e sentido. O AlchemyAPI destaca-se por ser gratuito de um conjunto de outras ferramentas do mesmo âmbito: AlchemyAPI Basic, Professional, Metered. Segundo dados da empresa, esta API recebe por dia 30 mil pedidos.

Autoria - empresa Orchestr8, especialista em text mining e tagging
Características
  • utiliza estatística para o processamento da linguagem natural
  • utiliza algoritmos para análise do conteúdo
  • usa NER named entity recognition
  • possui sistemas para controlar ambiguidade
  • extrai dados semânticos: pessoas, lugares, organismos, tópicos, línguas, etc.
  • lida com páginas web, textos, documentos digitalizados
  • faz tagging automático
  • extrai tópicos e frases
  • categoriza conteúdo
  • identifica a língua do texto objecto de análise, fazendo a gestão das várias línguas
  • permite, quando se extrai directamente de páginas web, remover tudo o que é acessório (tabs, navegação, etc.), ficando só o conteúdo
  • possibilita extrair por query (só certos dados)
  • funciona com microformatos e vários formatos de feeds que detecta automaticamente e extrai
Integração
  • Possui aplicações próprias para a função de extracção:
Alchemy Tagger que sugere tags para Wordpress
Alchemy SEO extrai keywords da página e transforma em web semântica para os motores;
Alchemy YahooPipes permite associar semântica aos feeds;
AlchmyCmd é uma aplicação de linha de comando que apoia na processo de tratamento de linguagem natural em ambientes Unix
  • Funciona com aplicações terceiras:
Wandora,
JackBe Presto Cloud,
Apache UIMA,
Paterva Maltego,
Ka, SimpleTags para wp,
Bradersheet,
WithWaves,
OpenLink Virtuoso
Tecnologia suporte
Funciona com muitas linguagens: Java, C/C++, C#, Perl, PHP, Python, Ruby..., estando disponível o SDK respectivo para desenvolvimento
Licença e uso
  • gratuito o pacote Free, alto rendimento para educação e organizações sem fins lucrativos
  • registo
  • chave para acesso à API
  • demo
Tags - extrair texto, pnl, processamento em linguagem natural, semântica, saas
Testes
Experimentei a demo e fiquei surpreendida porque funciona bastante bem. Usei um artigo do Jornal de Letras sobre Chico Buarque.
Identificou com grande acerto entidades, língua, local, categoria. É claro que aqui não distingue pessoas reais de ficcionais e coloca o Napoleão como lugar, mas está óptimo.
Language: portuguese
Person (8): Matilde, Leite Derramado, Chico, Chico Buarque, Jorge Luís Borges, Maria Eulália, José Costa, Eulálio
Country (2): Brasil, Montenegro
City (5): Budapeste, Eulálio, Paris, Copacabana, Napoleão
Organization (1): Fluminense Football Club
HealthCondition (1): cabeça
Tags (13): Jorge Luís Borges, Eulálio d'Assumpção, Maria Eulália, José Costa, Velho Francisco, Football Club, romance chico, classe média, Dom Casmurro, Brás Cubas, merecer desenvolvimento, Montenegro d'Assumpção, República Velha
Category: Arts & Entertainment (confidence: 0.8499)

Voltar ao índice

G

GATE General Architecture for Text Engineering

Solução muito estável com início em 1995 e participação de universidades do Reino Unido. É usado quer no mundo empresarial quer no académico, servindo muitas finalidades.

Autoria
Tecnologia suportada
  • escrita em java
Tags - extrair texto, pnl, processamento em linguagem natural, semântica

Voltar ao índice


M

MALLET

Autoria
Tags - extrair texto, pnl, processamento em linguagem natural, semântica

Voltar ao índice


N

NLTK.org Natural Language Toolkit

Biblioteca em python iniciada em 2005, muito bem orientada e assente em bibliotecas de processamento de linguagem recentes. Contém muito boa informação e documentação de apoio. Disponibiliza corpora, colecções de gramática, modelos para usar (ver howtos).

Autoria -
Tecnologia - Python
Licença e uso - open source
Tags - extrair texto, pnl, processamento em linguagem natural, semântica


Voltar ao índice


O

OPENCALAIS

A grande vantagem desta API é ter como background a maior colecção de textos.

Autoria - Reuters
Tags - extrair texto, pnl, processamento em linguagem natural, semântica, saas

Voltar ao índice


P

PORTER STEMMER

Solução mais básica sem a versatilidade de ferramentas de análise semântica. Porém, nalguns casos pode ser o suficiente.

Autoria -
Características
  • funciona com mysql
  • usa lista de stopwords e outras técnicas de indexação e classificação básicas (baysian para medir a semelhança de textos)
  • associa as palavras às keywords dadas ao sistema
Tags -

Voltar ao índice


Z

ZEMANTA

A sua API é bastante conhecida de serviços de blogues: blogger, wordpress, drupal. De forma muito simples, ajuda ao tagging automático, sugerindo recursos extra a complementar o texto

Autoria - Reuters
Tags - extrair texto, tagging, processamento em linguagem natural, semântica, saas

Voltar ao índice

Zemanta: offers an API with automatic tagging, among many other features.

Ferramentas pessoais
Espaços nominais
Variantes
Acções
Hacklaviva
Hackmeeting
Transparência Hackday
Ferramentas