Página 1 dos resultados de 625 itens digitais encontrados em 0.035 segundos

Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem; Information extraction from scientific articles: an approach based on induction of tagging rules

Álvarez, Alberto Cáceres
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 08/05/2007 Português
Relevância na Pesquisa
108.43678%
Este trabalho faz parte do projeto de uma ferramenta denominada FIP (Ferramenta Inteligente de Apoio à Pesquisa) para recuperação, organização e mineração de grandes coleções de documentos. No contexto da ferramenta FIP, diversas técnicas de Recuperação de Informação, Mineração de Dados, Visualização de Informações e, em particular, técnicas de Extração de Informações, foco deste trabalho, são usadas. Sistemas de Extração de Informação atuam sobre um conjunto de dados não estruturados e objetivam localizar informações específicas em um documento ou coleção de documentos, extraí-las e estruturá-las com o intuito de facilitar o uso dessas informações. O objetivo específico desenvolvido nesta dissertação é induzir, de forma automática, um conjunto de regras para a extração de informações de artigos científicos. O sistema de extração proposto, inicialmente, analisa e extrai informações presentes no corpo dos artigos (título, autores, a filiação, resumo, palavras chaves) e, posteriormente, foca na extração das informações de suas referências bibliográficas. A proposta para extração automática das informações das referências é uma abordagem nova, baseada no mapeamento do problema de part-of-speech tagging ao problema de extração de informação. Como produto final do processo de extração...

Método de análise de componentes dependentes para o processamento, caracterização e extração de componentes de sinais biomédicos; Dependent Component Analysis for processing, characterization and extraction of biomedical signal components.

Montesco, Carlos Alberto Estombelo
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 10/12/2007 Português
Relevância na Pesquisa
98.27113%
Na área de processamento de sinais biomédicos a extração de informação, baseada em um conjunto de medidas adquiridas no tempo, é considerada de suma importância. A qualidade desta informação extraída permite avaliar o funcionamento dos diversos órgãos. Objetivos: (1) propor o método de análise de componentes dependentes para auxiliar a extração de componentes de interesse, a partir de medidas multivariadas; (2) caraterizar as componentes extraídas através de representações em termos de tempo e freqüência, e espectro de potência; e, (3) aplicar o método e avaliar as componentes de interesse extraídas no contexto real MCGf, MGG e fMRI. A proposta para a extração fundamenta-se no método chamado de Análise de Componentes Dependentes ACD. As medidas a serem processadas são multivariadas a partir de sensores distribuídos, espacialmente, no corpo humano dando origem a um conjunto de dados correlacionados no tempo e/ou no espaço. Observa-se que os sinais de interesse raramente são registrados de forma isolada, e sim misturados com outros sinais superpostos, ruído e artefatos fisiológicos ou ambientais, onde a relação sinal-ruído é geralmente baixa. Nesse contexto, a estratégia a ser utilizada baseia-se na ACD...

Construção automática de redes bayesianas para extração de interações proteína-proteína a partir de textos biomédicos; Learning Bayesian networks for extraction of protein-protein interaction from biomedical articles

Juárez, Pedro Nelson Shiguihara
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 20/06/2013 Português
Relevância na Pesquisa
98.13024%
A extração de Interações Proteína-Proteína (IPPs) a partir de texto é um problema relevante na área biomédica e um desafio na área de aprendizado de máquina. Na área biomédica, as IPPs são fundamentais para compreender o funcionamento dos seres vivos. No entanto, o número de artigos relacionados com IPPs está aumentando rapidamente, sendo impraticável identicá-las e catalogá-las manualmente. Por exemplo, no caso das IPPs humanas apenas 10% foram catalogadas. Por outro lado, em aprendizado de máquina, métodos baseados em kernels são frequentemente empregados para extrair automaticamente IPPs, atingindo resultados considerados estado da arte. Esses métodos usam informações léxicas, sintáticas ou semânticas como características. Entretanto, os resultados ainda são insuficientes, atingindo uma taxa relativamente baixa, em termos da medida F, devido à complexidade do problema. Apesar dos esforços em produzir kernels, cada vez mais sofisticados, usando árvores sintáticas como árvores constituintes ou de dependência, pouco é conhecido sobre o desempenho de outras abordagens de aprendizado de máquina como, por exemplo, as redes bayesianas. As àrvores constituintes são estruturas de grafos que contêm informação importante da gramática subjacente as sentenças de textos contendo IPPs. Por outro lado...

Extração de informação para busca semântica na web baseada em ontologias

Silva, Tércio de Morais Sampaio
Fonte: Florianópolis, SC Publicador: Florianópolis, SC
Tipo: Dissertação de Mestrado Formato: xiv, 79 f.| il.
Português
Relevância na Pesquisa
98.52223%
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia Elétrica.; Sistemas de Recuperação de Informação (RI) prestam um papel fundamental na busca por páginas na Web. Entretanto, os resultados oferecidos por estes sistemas são pouco precisos, trazendo muitas informações que não condizem com o interesse do usuário. Isto ocorredevido à falta de semântica nas páginas da Web e nos critérios de busca adotados pelos sistemas de RI. Neste trabalho propomos um sistema de Extração de Informação (EI) baseado em ontologias. O objetivo é extrair informações de páginas previamente classificadas semanticamente pelo sistema MASTER-Web que é um sistema multiagente cognitivo para recuperação, classificação e extração de informação na Web. Ontologias são empregadas como formalismo de representação de conhecimento e permitem que o conhecimento seja discriminado em três tipos: conhecimento do domínio, conhecimento sobre a página Web e conhecimento sobre a informação a ser extraída. Regras de produção são usadas como representação do conhecimento sobre o processo de extração. A informação é tratada como um conjunto formado por dados que são extraídos individualmente e depois combinados de modo que componham uma informação consistente. Estes dois passos definem as duas fases da extração que são a extração individual e a integração. Na primeira fase os dados são extraídos individualmente e na segunda fase...

Um sistema de manutenção semiautomática de ontologias a partir do reconhecimento de entidades.

Murguero Júnior, Ronaldo Tadeu
Fonte: Universidade Federal de Santa Catarina Publicador: Universidade Federal de Santa Catarina
Tipo: Trabalho de Conclusão de Curso Formato: 63p.
Português
Relevância na Pesquisa
98.09081%
TCC (graduação) - Universidade Federal de Santa Catarina, Campus Araranguá, Curso de Tecnologias da Informação e Comunicação.; Uma quantidade cada vez maior de informações está disponível em formato textual e eletrônico. Essas informações contêm padrões textuais, tais como, conceitos, relacionamentos, regras, entre outros, podendo ser de grande auxílio na integração com outros sistemas ou mesmo, para auxiliar processos de tomada de decisão. Contudo, existe uma grande preocupação em como recuperar, organizar, armazenar e compartilhar estes padrões considerando uma formalização adequada. Neste sentido, a área de Extração de Informação promove suporte através de técnicas que analisam o texto e extraem padrões tidos como relevantes. Após a fase de extração, torna-se necessária a correta atribuição dos padrões para classes de um domínio em particular, em que estes passam a se chamar entidades. Tal processo é realizado através da subárea chamada de Reconhecimento de Entidades. Além disso, visando o compartilhamento e a manutenção de determinado domínio de conhecimento, as entidades devem ser armazenadas em um meio que possibilite atingir tais objetivos. Neste contexto a área de Ontologia se insere. Para demonstrar a viabilidade da proposição deste trabalho foi desenvolvido um protótipo voltado às fases de extração e reconhecimento de entidades...

Um modelo baseado em ontologia e extração de informação como suporte ao processo de design instrucional na geração de mídias do conhecimento

Braglia, Israel de Alcântara
Fonte: Universidade Federal de Santa Catarina Publicador: Universidade Federal de Santa Catarina
Tipo: Tese de Doutorado Formato: 1 v.| il.
Português
Relevância na Pesquisa
108.05747%
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, 2014.; A educação à distância (EAD) é uma realidade em expansão. Sobre esta evolução está o design instrucional permeando as equipes de produção para cursos em EAD. Nesta tese o objetivo foi propor um modelo baseado em ontologia e extração da informação como suporte ao processo de design instrucional na geração de mídias do conhecimento. Sendo assim, esta tese propõe um modelo que tivesse como suporte ontologias de domínio para a EAD - pois todo material instrucional de um curso de EAD nasce de um texto bruto (corpus). Com a intuição de auxiliar a fase de implementação do designer instrucional sob a leitura deste texto bruto, foi criado um modelo de representação baseado em ontologia para que o mesmo possa projetar ao designer instrucional as categorias básicas sobre o texto. Para isso, ao trabalhar o texto bruto, o designer instrucional pode se atribuir de uma ferramenta de extração de informação e, por consequência, agilizar seus insumos de trabalho. É importante destacar que o modelo aqui proposto se expande e funciona em sua totalidade através da integração com outras ontologias para realizar uma representação gráfica do corpus: que expõe conexões existentes entre os termos e como eles podem ainda...

A sentence-based information retrieval system for biomedical corpora; Recuperação de informação baseada em frases para textos biomédicos

Nunes, Tiago Santos Barata
Fonte: Universidade de Aveiro Publicador: Universidade de Aveiro
Tipo: Dissertação de Mestrado
Português
Relevância na Pesquisa
97.68851%
O desenvolvimento de novos métodos experimentais e tecnologias de alto rendimento no campo biomédico despoletou um crescimento acelerado do volume de publicações científicas na área. Inúmeros repositórios estruturados para dados biológicos foram criados ao longo das últimas décadas, no entanto, os utilizadores estão cada vez mais a recorrer a sistemas de recuperação de informação, ou motores de busca, em detrimento dos primeiros. Motores de pesquisa apresentam-se mais fáceis de usar devido à sua flexibilidade e capacidade de interpretar os requisitos dos utilizadores, tipicamente expressos na forma de pesquisas compostas por algumas palavras. Sistemas de pesquisa tradicionais devolvem documentos completos, que geralmente requerem um grande esforço de leitura para encontrar a informação procurada, encontrando-se esta, em grande parte dos casos, descrita num trecho de texto composto por poucas frases. Além disso, estes sistemas falham frequentemente na tentativa de encontrar a informação pretendida porque, apesar de a pesquisa efectuada estar normalmente alinhada semanticamente com a linguagem usada nos documentos procurados, os termos usados são lexicalmente diferentes. Esta dissertação foca-se no desenvolvimento de técnicas de recuperação de informação baseadas em frases que...

Mining biomedical information from scientific literature; Mineração de informação biomédica a partir de literatura científica

Campos, David Emmanuel Marques
Fonte: Universidade de Aveiro Publicador: Universidade de Aveiro
Tipo: Tese de Doutorado
Português
Relevância na Pesquisa
98.03021%
The rapid evolution and proliferation of a world-wide computerized network, the Internet, resulted in an overwhelming and constantly growing amount of publicly available data and information, a fact that was also verified in biomedicine. However, the lack of structure of textual data inhibits its direct processing by computational solutions. Information extraction is the task of text mining that intends to automatically collect information from unstructured text data sources. The goal of the work described in this thesis was to build innovative solutions for biomedical information extraction from scientific literature, through the development of simple software artifacts for developers and biocurators, delivering more accurate, usable and faster results. We started by tackling named entity recognition - a crucial initial task - with the development of Gimli, a machine-learning-based solution that follows an incremental approach to optimize extracted linguistic characteristics for each concept type. Afterwards, Totum was built to harmonize concept names provided by heterogeneous systems, delivering a robust solution with improved performance results. Such approach takes advantage of heterogenous corpora to deliver cross-corpus harmonization that is not constrained to specific characteristics. Since previous solutions do not provide links to knowledge bases...

O uso da Deteção Remota para a extração de Indicadores Urbanos

Pedro, Inês de Castro Silva Miranda
Fonte: Universidade Nova de Lisboa Publicador: Universidade Nova de Lisboa
Tipo: Dissertação de Mestrado
Publicado em /10/2014 Português
Relevância na Pesquisa
88.07568%
Nas últimas décadas o aumento da expansão das áreas urbanas conduziu a rápidas mudanças nos ambientes urbanos. Estas mudanças necessitam de uma observação e compreensão, por forma a permitir a monitorização e avaliação do processo de planeamento urbano. A utilização de dados obtidos por Deteção Remota (DR), aliada aos Sistemas de Informação Geográfica (SIG), surge como uma fonte de informação válida para modelar, recolher, armazenar, exibir e analisar os sistemas urbanos. Neste contexto, a informação planimétrica e altimétrica recolhida por sensores remotos pode ser explorada por forma a extrair informação acerca do uso e ocupação do solo, e apresenta-la sob a forma de indicadores para apoio à decisão. Um sistema de indicadores urbanos baseados em dados obtidos por DR constitui uma ferramenta para as cidades transmitirem os diferentes riscos urbanos bem como na promoção de medidas e estratégias para um eficiente planeamento urbano. A dissertação de mestrado proposta tem como principal objetivo a criação de um sistema de indicadores urbanos que caracterize a cidade de Lisboa ao nível das áreas verdes e do volume construído. Assim, de forma a atingir o objetivo principal é desenvolvida uma metodologia baseada em informação altimétrica e planimétrica que permite analisar as áreas verdes da cidade de Lisboa bem como o volume construído. A informação altimétrica urbana (3D) é derivada de dados cartográficos oficiais (curvas de nível que originam um Modelo Digital de Terreno) e informação recolhida por LiDAR (Light Detection And Ranging) (que representa o Modelo Digital de Superfície). A informação 2D é extraída de uma imagem do satélite de alta resolução Worldview-2 de 2010...

Extração de palavras-chave e taxonomias de tópicos para a BDPA.

MORETTI, C. J. P.; MOURA, M. F.
Fonte: In: MOSTRA DE ESTAGIÁRIOS E BOLSISTAS DA EMBRAPA INFORMÁTICA AGROPECUÁRIA, 6., 2010, Campinas. Resumos... Campinas : Embrapa Informática Agropecuária, 2010. Publicador: In: MOSTRA DE ESTAGIÁRIOS E BOLSISTAS DA EMBRAPA INFORMÁTICA AGROPECUÁRIA, 6., 2010, Campinas. Resumos... Campinas : Embrapa Informática Agropecuária, 2010.
Tipo: Resumo em anais de congresso (ALICE) Formato: p. 171-174.
Português
Relevância na Pesquisa
97.96201%
Este trabalho refere-se ao desenvolvimento de técnicas e ferramentas baseadas em extração de informação e mineração de textos para análise automatizada de conteúdo de campos dos registros existentes na Base de Dados de Pesquisa Agropecuária (BDPA). A princípio, os objetivos são chegar a uma taxonomia de tópicos inicial para sub-bases da Produção Científica da Embrapa (ProdEMB) e o estudo e identificação de campos faltantes nos registros da BDPA.; 2010

Extração de DNA para aplicação em reação em cadeia da polimerase (PCR).

REGITANO, L. C. de A.
Fonte: In: REGITANO, L.C. de A.; COUTINHO, L.L. Biologia molecular aplicada à produção animal. Brasília: Embrapa Informação Tecnológica, 2001. p.180-186. . Publicador: In: REGITANO, L.C. de A.; COUTINHO, L.L. Biologia molecular aplicada à produção animal. Brasília: Embrapa Informação Tecnológica, 2001. p.180-186. .
Tipo: Capítulo em livro técnico-científico (ALICE)
Português
Relevância na Pesquisa
97.7603%
Preparo de amostras de DNA de mamíferos; Extração de DNA de sangue fresco utilizando desproteínização com sal; Obtenção de leocócitos; Quantificação em espectrofotometro; Método rápido de extração de DNA de sangue; Extração de DNA de sêmem; Solução de proteinase K; Solução Lise I e II; Solução de PCR; PBS;; 2001

Extração de informação usando integração de componentes de PLN através do framework GATE

de Souza Cabral, Luciano; Luiz Goncalves de Freitas, Frederico (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
Português
Relevância na Pesquisa
118.44059%
A Extração de Informação (EI) é o ramo da área de recuperação de informação que utiliza técnicas e algoritmos para identificar e coletar informações desejadas a partir de documentos, sejam estes estruturados ou não, armazenando-as em um formato apropriado para consultas futuras. Dentre estas tecnologias, o uso de Processamento de Linguagem Natural (PLN) revela-se benéfico ao processo de extração, principalmente quando se processam documentos sem nenhuma estrutura e/ou padrão definido. Existe uma suíte que reúne dezenas de plugins que podem ajudar na tarefa de EI baseada em PLN, conhecida como GATE (General Architecture for Text Engineering). Neste trabalho propõe-se o módulo RELPIE, contendo alguns destes plugins para a extração a partir de texto livre. O módulo RELPIE é original, e emprega plugins GATE baseados em padrões de expressões regulares (ER) e regras de produção. Estas regras ficam totalmente separadas do sistema, visando modularidade na extração de informação a partir de documentos estruturados ou não. Os resultados obtidos nos experimentos demonstram que o módulo RELPIE apresenta bons níveis de extração com corpus compreendido por documentos textuais sem qualquer estrutura...

Um sistema de extração de informação em referências bibliográficas baseado em aprendizagem e máquina

Fraga do Amaral e Silva, Eduardo; de Almeida Barros, Flávia (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
Português
Relevância na Pesquisa
118.0563%
Existe atualmente uma gigantesca quantidade de informações disponibilizada em formato de texto na Internet e nas redes das grandes corporações. Essas informações encontram-se em um formato não estruturado, dificilmente manipulável por programas de computador. A Extração de Informação (EI) tem como objetivo transformar documentos textuais em um formato estruturado, mapeando a informação contida em um documento em uma estrutura tabular. Tal estrutura é mais facilmente tratável por programas de computador, possibilitando assim a sua utilização por variadas aplicações inteligentes . Dentro da Inteligência Artificial, vemos duas abordagens para tratar o problema da EI: os sistemas baseados em conhecimento e a aprendizagem automática. O trabalho apresentado tem como objetivo a construção de um sistema para extrair informações a partir de textos contendo citações científicas (ou referências bibliográficas) através de uma abordagem baseada em aprendizagem automática. Dentre as diversas técnicas existentes, escolhemos tratar o problema através de uma abordagem híbrida, que combina o uso de técnicas de classificação de textos com os Modelos de Markov Escondidos (HMM). Esta combinação mostrou resultados superiores aos obtidos usando exclusivamente as técnicas de classificação e sua idéia básica é gerar com o uso das técnicas de classificação de textos para EI uma saída inicial para o sistema e refiná-la depois por meio de um HMM. Experimentos realizados com um conjunto de teste contendo 3000 referências resultaram em uma precisão de 87...

Um sistema de recuperação e extração de informação utilizando conceitos da web semântica

Cunha Cardoso, Rafael; Carolina Brandão Salgado, Ana (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
Português
Relevância na Pesquisa
108.1613%
A crescente quantidade de dados disposta diariamente na Web faz com que os sistemas de recuperação e extração de informações desempenhem um papel importante dentro dessa realidade. Entretanto, os resultados das buscas na Web freqüentemente frustram as expectativas dos usuários no tocante à qualidade das informações recuperadas. A Web Semântica, considerada a nova geração da Web, apresenta conceitos e ferramentas que visam inserir significado nos documentos existentes na WWW atual, permitindo com isso sanar algumas das limitações existentes. Um dos principais conceitos sobre os quais a Web Semântica se fundamenta, é a Ontologia. Estas podem ser vistas como especificações formais de um determinado domínio de conhecimento que possibilitam um entendimento comum sobre determinado tema de discussão. Este trabalho visa melhorar a qualidade das informações recuperadas de sites na Web através da utilização de conceitos e fundamentos da Web Semântica aliada às técnicas da Web já estabilizadas. Para tanto, foi definida uma arquitetura e desenvolvido um protótipo de um sistema que objetiva realizar recuperação e extração de dados sobre um domínio específico de conhecimento, utilizando uma ontologia (baseada nos fundamentos da Web Semântica) desenvolvida para auxiliar o processo de extração de informação relevante a partir de um conjunto específico de dados da Web.

Um framework para transformação automática de documentos e extração de informações baseado em XML

Roberto Bechert Schmitz, Lucas; da Fonseca de Souza, Fernando (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
Português
Relevância na Pesquisa
108.08922%
Uma grande quantidade de informações, sobre diversos assuntos, se encontra disponível na Web. Essa quantidade cresce ano a ano e, aliados às informações, estão os formatos com que elas estão representadas (PDF, DOC, RTF, HTML, TEX, por exemplo.). Certos formatos dependem de tecnologias e/ou plataformas específicas, dificultando assim o acesso às informações contidas no documento. Tendo em vista esse problema, surge a necessidade de se ter formas para a conversão entre formatos específicos. Muitas ferramentas são oferecidas nesse sentido, porém geralmente oferecem poucas possibilidades de conversão, um ou dois formatos em média. Outro problema gerado pela grande quantidade de informações disponíveis na Web é a questão da filtragem do que realmente é interessante ao usuário que efetua uma busca sobre determinado assunto. Os atuais buscadores trazem como resultados documentos completos com diversas informações além das necessárias ao usuário. A análise do que é ou não interessante fica a cargo do próprio usuário, tornando-se um trabalho manual. A extração automática de informações nos documentos dispostos na Web se torna difícil, pois nem todos os documentos apresentam seus conteúdos de forma estruturada...

Um framework para extração de informações: uma abordagem baseada em XML

Medeiros Cabral, Davi; Souto Maior de Barros, Roberto (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
Português
Relevância na Pesquisa
108.08961%
Com o crescimento da Internet, muitas informações vêm se tornando rapidamente disponíveis, a cada ano, devido à facilidade do processo de publicação digital. Porém, a existência de diferentes formatos de representação (HTML, PS, RTF, etc.) e de conteúdo (estruturado, semi-estruturado e livre) torna o gerenciamento eficiente de documentos uma tarefa altamente complexa. Os atuais tratamentos de busca são pouco eficientes, deixando a obtenção das informações contidas no documento a cargo da atividade humana. Dentro dessa conjuntura, destacam-se os sistemas de Extração de Informação para obtenção de informações encontradas em documentos-texto, visando à realização de um processamento posterior. Porém, tais sistemas ainda são muito difíceis de ser desenvolvidos, exigindo conhecimentos de especialistas em Inteligência Artificial e no domínio dos documentos a serem analisados. Tal complexidade estimulou as pesquisas de sistemas, cada vez mais, genéricos para os mais variados domínios de textos simples e HTML. Contudo, para diferentes fontes de entrada e saída e formatos de documentos utilizados, pouco ou nenhum cuidado vem sendo dado em relação à flexibilidade e extensibilidade desses sistemas. Esta dissertação propõe um framework...

Ontoilper: an ontology- and inductive logic programming-based method to extract instances of entities and relations from texts

Lima, Rinaldo José de; Freitas, Frederico Luiz Gonçalves de
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Tese de Doutorado
Português
Relevância na Pesquisa
88.27578%
A área de Extração de Informação (IE) visa descobrir e estruturar informações dispostas em documentos semi-estruturados ou desestruturados. O Reconhecimento de Entidades Nomeadas (REN) e a Extração de Relações (ER) são duas subtarefas importantes em EI. A primeira visa encontrar entidades nomeadas, incluindo nome de pessoas e lugares, entre outros; enquanto que a segunda, consiste na detecção e caracterização de relações que envolvem as entidades nomeadas presentes no texto. Como a tarefa de criar manualmente as regras de extração para realizar REN e ER é muito trabalhosa e onerosa, pesquisadores têm voltado suas atenções na investigação de como as técnicas de aprendizado de máquina podem ser aplicadas à EI a fim de tornar os sistemas de ER mais adaptáveis às mudanças de domínios. Como resultado, muitos métodos do estado-da-arte em REN e ER, baseados em técnicas estatísticas de aprendizado de máquina, têm sido propostos na literatura. Tais sistemas normalmente empregam um espaço de hipóteses com expressividade propositional para representar os exemplos, ou seja, eles são baseado na tradicional representação atributo-valor. Em aprendizado de máquina, a representação proposicional apresenta algums fatores limitantes...

Uma plataforma para suporte às bibliotecas digitais de eventos científicos com foco na extração de informação

Alves, Neide Ferreira; Lins, Rafael Dueire (Orientador); Lencastre, Maria (Orientadora)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Tese de Doutorado
Português
Relevância na Pesquisa
98.16994%
A presente tese descreve as especificações e requisitos para o desenvolvimento de Bibliotecas Digitais de documentos textuais, considerando a possibilidade de reuso e a extração de dados. Considerando o imenso volume de informação disponível nesses repositórios, é de grande interesse a construção de sistemas capazes de selecionar automaticamente apenas os dados de interesse do usuário, facilitando assim o acesso, a manipulação e a divulgação dessas informações. O Modelo de Referências de Biblioteca Digital da DELOS foi utilizado para guiar a construção do ambiente, como consequência foi desenvolvida a plataforma pLiveMemory com módulos implementados para desktop e web, neste último, a infraestrutura da nuvem do Google é utilizada. Entre os módulos desenvolvidos há um específico para identificação e extração de referências bibliográficas, o qual usa, entre outros, o algoritmo de Naïve Bayes juntamente com as técnicas de expressões regulares. Também há um módulo para identificação de palavras-chave em arquivos de formato PDF editável. Os resultados obtidos mostraram os ganhos com a utilização das estratégias adotadas nas diversas fases do projeto, como na classificação automática de informação dos textos de artigos científicos.

Extração de tópicos baseado em agrupamento de regras de associação; Topic extraction based on association rule clustering

Santos, Fabiano Fernandes dos
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 29/05/2015 Português
Relevância na Pesquisa
88.09469%
Uma representação estruturada dos documentos em um formato apropriado para a obtenção automática de conhecimento, sem que haja perda de informações relevantes em relação ao formato originalmente não-estruturado, é um dos passos mais importantes da mineração de textos, pois a qualidade dos resultados obtidos com as abordagens automáticas para obtenção de conhecimento de textos estão fortemente relacionados à qualidade dos atributos utilizados para representar a coleção de documentos. O Modelo de Espaço de Vetores (MEV) é um modelo tradicional para obter uma representação estruturada dos documentos. Neste modelo, cada documento é representado por um vetor de pesos correspondentes aos atributos do texto. O modelo bag-of-words é a abordagem de MEV mais utilizada devido a sua simplicidade e aplicabilidade. Entretanto, o modelo bag-of-words não trata a dependência entre termos e possui alta dimensionalidade. Diversos modelos para representação dos documentos foram propostos na literatura visando capturar a informação de relação entre termos, destacando-se os modelos baseados em frases ou termos compostos, o Modelo de Espaço de Vetores Generalizado (MEVG) e suas extensões, modelos de tópicos não-probabilísticos...

Analysis of the profile of students in a course Lato Sensu using RapidMiner tool; Análise do perfil dos estudantes de um curso Lato Sensu utilizando ferramenta RapidMiner

Leonardi, Juliana; Universidade Federal de Santa Catarina; Catapan, Araci Hack; Universidade Federal de Santa Catarina UFSC; Bastos, Rogério Cid; Universidade Federal de Santa Catarina UFSC
Fonte: Departamento de Ciência da Informação – UFSC Publicador: Departamento de Ciência da Informação – UFSC
Tipo: info:eu-repo/semantics/article; info:eu-repo/semantics/publishedVersion; ; Estudo de Caso; Formato: application/pdf
Publicado em 13/08/2013 Português
Relevância na Pesquisa
87.96603%
This paper aims to raise the profile of the participants selected a course-level Lato Sensu in EaD mode by the University Federal de Santa Catarina (UFSC). It was used RapidMiner tool for knowledge extract. It was also used to observe and structure the data (using ranking algorithms based on the technique of numerical tree ID3) with respect to training, experience in EaD and research of selected candidates. With this analysis, was proposed a pedagogical approach of the course congruent with of the selected profile, facilitating the development of learning situations and teacher education in the interaction of two major areas: management and teaching. The organization of the course is concerned with preserving the unity of knowledge in the training of participants. In this perspective, the disciplines are integrated by four axes that constitute the curriculum organization. The axes and themes treated as disciplines propose the crossing and the complementarity during to elapse of the course, contemplating the prismatic look of interdisciplinarity and transversality.; http://dx.doi.org/10.5007/1518-2924.2013v18n37p19 A pesquisa tem como objetivo levantar o perfil dos participantes selecionados num curso em nível Lato Sensu na modalidade EaD realizado pela Universidade Federal de Santa Catarina (UFSC). Foi utilizada a ferramenta de extração de conhecimento RapidMiner para observar e estruturar os dados (usando algoritmos de classificação baseado na técnica de árvore ID3 numérico) sobre a formação...