{"id":1288657,"date":"2023-11-06T11:00:00","date_gmt":"2023-11-06T14:00:00","guid":{"rendered":"https:\/\/www.estrategiaconcursos.com.br\/blog\/?p=1288657"},"modified":"2023-10-15T16:13:19","modified_gmt":"2023-10-15T19:13:19","slug":"tecnicas-pre-processamento-linguagem-natural","status":"publish","type":"post","link":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/","title":{"rendered":"Ci\u00eancia de Dados Passo a Passo: T\u00e9cnicas de Pr\u00e9-Processamento de Linguagem Natural."},"content":{"rendered":"\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<h2 class=\"wp-block-heading has-vivid-red-color has-text-color\" id=\"h-introducao\">Introdu\u00e7\u00e3o<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Vamos retomar a nossa s\u00e9rie especial de temas sobre Ci\u00eancia de Dados. &nbsp;No artigo de hoje, falaremos sobre t\u00e9cnicas de pr\u00e9-processamento de linguagem natural.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">O t\u00f3pico \u00e9 uma das grandes apostas para as provas espec\u00edficas da \u00e1rea de TI e\/ou concorridas da \u00e1rea geral, em raz\u00e3o de sua cobran\u00e7a nos \u00faltimos anos. Dessa forma, os alunos que estudam para essas provas n\u00e3o podem negligenci\u00e1-lo de jeito nenhum.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Apesar de ser um tema relativamente recente, o processamento de linguagem natural n\u00e3o \u00e9 t\u00e3o simples e h\u00e1 muito conte\u00fado para confundir. Como sempre, vamos tentar explicar tudo de uma forma clara e direta, para voc\u00ea n\u00e3o perder muito tempo. Veja o nosso roteiro:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>O que \u00e9 Processamento de Linguagem Natural?<\/strong><strong><\/strong><\/li>\n\n\n\n<li><strong>T\u00e9cnicas de Pr\u00e9-Processamento de Linguagem Natural<\/strong><strong><\/strong><\/li>\n\n\n\n<li><strong>Mapa Mental<\/strong><\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Atendendo a pedidos, o artigo \u00e9 curtinho, respeitando o nosso compromisso de trazer uma leitura direta a voc\u00ea. Ou seja, hoje n\u00e3o tem desculpas, concurseiro. Esperamos voc\u00ea nas pr\u00f3ximas se\u00e7\u00f5es. At\u00e9 j\u00e1!<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#fcb900\" class=\"has-inline-color\">Tempo de leitura aproximada: 5 a 10 minutos<\/mark><\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<h2 class=\"wp-block-heading has-vivid-red-color has-text-color\" id=\"h-o-que-e-processamento-de-linguagem-natural\">O que \u00e9 Processamento de Linguagem Natural?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">O processamento de linguagem natural (PLN) \u00e9 um ramo da Intelig\u00eancia Artificial que utiliza t\u00e9cnicas de aprendizado de m\u00e1quina para compreender e manipular automaticamente a linguagem humana, principalmente por meio de interpreta\u00e7\u00e3o de texto.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"has-cyan-bluish-gray-background-color has-background wp-block-paragraph\"><strong>Voc\u00ea Sabia?<\/strong> Aprendizado de m\u00e1quina, tamb\u00e9m conhecido como <em>machine learning<\/em>, consiste em mecanismos para que uma m\u00e1quina aprenda e evolua constantemente. A m\u00e1quina pode receber apoio para o aprendizado, por meio de uma apresenta\u00e7\u00e3o pr\u00e9via dos dados, ou ter que aprender sozinha.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Apesar de o processamento de linguagem natural estar oficialmente na Intelig\u00eancia Artificial, frequentemente as bancas cobram dentro dos t\u00f3picos de Ci\u00eancia de Dados, haja vista que a linguagem humana e suas deriva\u00e7\u00f5es textuais s\u00e3o tipos de dados.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Com o processamento de linguagem natural, \u00e9 poss\u00edvel analisar textos, identificar seus significados e tomar decis\u00f5es a partir desses resultados observados. Ele \u00e9 muito utilizado por empresas, especialmente para entender opini\u00f5es de clientes e prever tend\u00eancias futuras.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Veja uma esquematiza\u00e7\u00e3o de como ocorre o processamento de linguagem natural.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1023\" height=\"517\" src=\"https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05222107\/image-75.png\" alt=\"Figura 1 - Funcionamento do Processamento de Linguagem Natural.\" class=\"wp-image-1288664\" srcset=\"https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05222107\/image-75.png 1023w, https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05222107\/image-75-300x152.png 300w, https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05222107\/image-75-768x388.png 768w, https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05222107\/image-75-610x308.png 610w, https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05222107\/image-75-150x76.png 150w\" sizes=\"auto, (max-width: 1023px) 100vw, 1023px\" \/><figcaption class=\"wp-element-caption\">Figura 1 &#8211; Funcionamento do Processamento de Linguagem Natural.<\/figcaption><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Concurseiro, n\u00f3s somos sinceros. Saiba que as bancas cobram muito menos o desenvolvimento de algoritmos do que as t\u00e9cnicas de pr\u00e9-processamento. \u00c9 por isso que estamos focando nas t\u00e9cnicas neste artigo.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Por\u00e9m, isso n\u00e3o significa que os algoritmos n\u00e3o caiam. Eles caem, mas com uma probabilidade menor. Em outras palavras, se voc\u00ea tem pouco tempo, foque nas t\u00e9cnicas de pr\u00e9-processamento. Dessa forma, j\u00e1 conseguir\u00e1 garantir muitas quest\u00f5es.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<h2 class=\"wp-block-heading has-vivid-red-color has-text-color\" id=\"h-tecnicas-de-pre-processamento-de-linguagem-natural\">T\u00e9cnicas de Pr\u00e9-Processamento de Linguagem Natural<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">O processamento de linguagem natural trabalha com algumas t\u00e9cnicas de pr\u00e9-processamento. Essas t\u00e9cnicas buscam manipular o texto antes do processamento propriamente dito come\u00e7ar.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Mais uma vez, as bancas gostam de cobrar isso (principalmente a FGV nos concursos mais \u201ccaveiras\u201d). Como nossa proposta neste artigo se pauta na objetividade, vamos falar brevemente sobre cada uma delas.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<h3 class=\"wp-block-heading has-luminous-vivid-orange-color has-text-color\" id=\"h-tecnicas-nao-vetoriais-de-pre-processamento-de-linguagem-natural\">T\u00e9cnicas N\u00e3o Vetoriais de Pr\u00e9-Processamento de Linguagem Natural<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<h4 class=\"wp-block-heading has-vivid-purple-color has-text-color\" id=\"h-tokenizacao-remocao-de-stopwords-stemming-e-lematizacao\">Tokeniza\u00e7\u00e3o, Remo\u00e7\u00e3o de <em>Stopwords<\/em>, <em>Stemming <\/em>e Lematiza\u00e7\u00e3o<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"has-pale-cyan-blue-background-color has-background wp-block-paragraph\"><strong><mark style=\"background-color:#8ed1fc\" class=\"has-inline-color\">Tokeniza\u00e7\u00e3o:<\/mark><\/strong> o texto \u00e9 dividido em pequenas unidades, chamadas <em>tokens<\/em>. Na pr\u00e1tica, cada <em>token<\/em> corresponde a um termo que aparece no texto. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Vamos ver um exemplo simples.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#fcb900\" class=\"has-inline-color\">Exemplo:<\/mark><\/strong> Eu espero a sua mensagem ansiosamente.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">No exemplo acima, cada termo (\u201cEu\u201d, \u201cespero\u201d, \u201ca\u201d etc.) corresponde a um token. Assim, ter\u00edamos 6 <em>tokens<\/em> no texto apresentado.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"has-pale-cyan-blue-background-color has-background wp-block-paragraph\"><strong><mark style=\"background-color:#8ed1fc\" class=\"has-inline-color\">Remo\u00e7\u00e3o de <em>stopwords<\/em>:<\/mark> <\/strong>esta t\u00e9cnica de pr\u00e9-processamento de linguagem natural visa eliminar palavras irrelevantes para o texto, tamb\u00e9m denominadas de <em>stopwords<\/em>. Na pr\u00e1tica, s\u00e3o artigos, preposi\u00e7\u00f5es, pronomes do texto etc. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Vamos voltar ao nosso exemplo.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#fcb900\" class=\"has-inline-color\">Exemplo:<\/mark><\/strong> Eu espero a sua mensagem ansiosamente.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">De acordo com a explica\u00e7\u00e3o, os <em>tokens<\/em> que podem ser considerados <em>stopwords<\/em> no texto s\u00e3o \u201cEu\u201d (pronome reto), \u201ca\u201d (artigo definido), \u201csua\u201d (pronome possessivo).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ap\u00f3s a remo\u00e7\u00e3o das <em>stopwords<\/em>, ficar\u00edamos com \u201cespero\u201d, \u201cmensagem\u201d e \u201cansiosamente\u201d. Veja que \u00e9 poss\u00edvel entender a mensagem mesmo com apenas 3 palavras.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"has-pale-cyan-blue-background-color has-background wp-block-paragraph\"><strong><mark style=\"background-color:#8ed1fc\" class=\"has-inline-color\"><em>Stemming<\/em>:<\/mark> <\/strong>esta t\u00e9cnica remove a flex\u00e3o dos <em>tokens<\/em>, mantendo apenas o radical ou a raiz. Isso facilita a identifica\u00e7\u00e3o do seu significado. Pode ser aplicada em palavras que admitem algum tipo de deriva\u00e7\u00e3o e precisam ser simplificadas, tais como verbos, plurais etc.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#fcb900\" class=\"has-inline-color\">Exemplo:<\/mark><\/strong> \u201cespero\u201d =&gt; \u201cesper\u201d<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;          \u201cmensagem\u201d =&gt; \u201cmensagem\u201d<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;          \u201cansiosamente\u201d =&gt; \u201cansiosa\u201d<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Nas palavras acima, veja que podemos aplicar o <em>stemming<\/em> em \u201cespero\u201d (verbo no presente) e \u201cansiosamente\u201d (adv\u00e9rbio de modo). N\u00e3o faria diferen\u00e7a na aplica\u00e7\u00e3o da palavra \u201cmensagem\u201d, pois esta \u00e9 um substantivo n\u00e3o flexionado.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"has-pale-cyan-blue-background-color has-background wp-block-paragraph\"><strong><mark style=\"background-color:#8ed1fc\" class=\"has-inline-color\">Lematiza\u00e7\u00e3o:<\/mark> <\/strong>faz o inverso do <em>stemming<\/em>, considerando os <em>tokens<\/em> sem as flex\u00f5es aplicadas. Na pr\u00e1tica, considera infinitivos de verbos, substantivos e adv\u00e9rbios no masculino singular etc.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#fcb900\" class=\"has-inline-color\">Exemplo:<\/mark><\/strong> &nbsp;\u201cesper\u201d =&gt; \u201cesperar\u201d<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;           \u201cmensagem\u201d =&gt; \u201cmensagem\u201d<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;           \u201cansiosa\u201d =&gt; \u201cansioso\u201d<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<h3 class=\"wp-block-heading has-luminous-vivid-orange-color has-text-color\" id=\"h-tecnicas-vetoriais-de-pre-processamento-de-linguagem-natural\">T\u00e9cnicas Vetoriais de Pr\u00e9-Processamento de Linguagem Natural<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<h4 class=\"wp-block-heading has-vivid-purple-color has-text-color\" id=\"h-bag-of-words\">Bag of Words<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"has-pale-cyan-blue-background-color has-background wp-block-paragraph\"><strong><mark style=\"background-color:#8ed1fc\" class=\"has-inline-color\"><em>Bag of words<\/em>:<\/mark> <\/strong>t\u00e9cnica vetorial de pr\u00e9-processamento de linguagem natural mais cl\u00e1ssica, que considera a frequ\u00eancia de cada <em>token<\/em> no texto. Tamb\u00e9m \u00e9 conhecida como saco de palavras. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Vamos ver um exemplo um pouco maior para ficar mais claro.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong><mark style=\"background-color:#fcb900\" class=\"has-inline-color\">Exemplo:<\/mark><\/strong> \u201cEu espero a sua mensagem ansiosamente. Eu mandei uma mensagem h\u00e1 alguns meses e voc\u00ea n\u00e3o respondeu. Como eu sei que voc\u00ea recebeu a mensagem, ent\u00e3o n\u00e3o h\u00e1 desculpa.\u201d<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Deixando a briga de lado, a nossa ideia \u00e9 contar quantas vezes cada <em>token<\/em> aparece. Mas antes, precisamos determinar quais s\u00e3o os <em>tokens<\/em>. Vamos continuar com o exemplo:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>tokens <\/em>= [\u201ceu\u201d, \u201cespero\u201d, \u201ca\u201d, \u201csua\u201d, \u201cmensagem\u201d, \u201cansiosamente\u201d, \u201cmandei\u201d, \u201cuma\u201d, \u201ch\u00e1\u201d, \u201calguns\u201d, \u201cmeses\u201d, \u201ce\u201d, \u201cvoc\u00ea\u201d, \u201cn\u00e3o\u201d, \u201crespondeu\u201d, \u201ccomo\u201d, \u201csei\u201d, \u201cque\u201d, \u201crecebeu\u201d, \u201cent\u00e3o\u201d, \u201cdesculpa\u201d]<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Conhecidos os <em>tokens<\/em>, vamos fazer a contagem. As frequ\u00eancias podem ficar no mesmo vetor de <em>tokens<\/em> ou em uma estrutura separada. Para facilitar a explica\u00e7\u00e3o, vamos separar:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">frequencias = [3, 1, 2, 1, 3, 1, 1, 1, 2, 1, 1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1]<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Em outras palavras, \u201ceu\u201d aparece 3 vezes, \u201cespero\u201d aparece 1 vez, \u201ca\u201d aparece 2 vezes e assim por diante. Veja que n\u00e3o \u00e9 t\u00e3o dif\u00edcil, mas precisa conhecer a t\u00e9cnica.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<h4 class=\"wp-block-heading has-vivid-purple-color has-text-color\" id=\"h-tf-idf\">TF-IDF<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"has-pale-cyan-blue-background-color has-background wp-block-paragraph\"><strong><mark style=\"background-color:#8ed1fc\" class=\"has-inline-color\">TF-IDF:<\/mark> <\/strong>t\u00e9cnica vetorial de pr\u00e9-processamento de linguagem natural que analisa a frequ\u00eancia dos <em>tokens<\/em> em uma amostra (TF) em compara\u00e7\u00e3o com a ocorr\u00eancia dos <em>tokens<\/em> em outros textos (IDF). O objetivo \u00e9 identificar palavras raras que aparecem. <\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Observe as f\u00f3rmulas abaixo:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"has-background wp-block-paragraph\" style=\"background-color:#f6c2ce\"><strong>Frequ\u00eancia de Termos (TF) = N\u00famero de vezes que o <em>token<\/em> aparece no documento \/ &nbsp;n\u00famero de <em>tokens<\/em> no documento<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Vamos considerar o exemplo anterior, da briga de casal. Suponha que o n\u00famero de <em>tokens<\/em> do documento \u00e9 21. Vamos ent\u00e3o calcular o TF de cada um dos <em>tokens<\/em>:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>TF<\/strong> = [3\/21, 1\/21, 2\/21, 1\/21, 3\/21, 1\/21, 1\/21, 1\/21, 2\/21, 1\/21, 1\/21, 1\/21, 2\/21, 2\/21, 1\/21, 1\/21, 1\/21, 1\/21, 1\/21, 1\/21, 1\/21]<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>TF<\/strong> = [0,14; 0,05; 0,09; 0,05; 0,14; 0,05; 0,05; 0,05; 0,09; 0,05; 0,05; 0,05; 0,09; 0,09; 0,05; 0,05; 0,05; 0,05; 0,05; 0,05; 0,05]<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"has-background wp-block-paragraph\" style=\"background-color:#f6c2ce\"><strong>Frequ\u00eancia Inversa nos Documentos (IDF) = N\u00famero total de documentos \/ n\u00famero de documentos em que o token aparece<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">No nosso cen\u00e1rio, s\u00f3 estamos trabalhando com 1 documento. Na hora da prova, a quest\u00e3o ir\u00e1 fornecer dados sobre outros documentos para voc\u00ea fazer as contas. Mesmo assim, vamos deixar os c\u00e1lculos indicados para voc\u00ea ver como seria:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>IDF = <\/strong>[1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1, 1\/1]<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>IDF = <\/strong>[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Para calcular o TF-IDF, basta multiplicar as frequ\u00eancias, utilizando a f\u00f3rmula abaixo:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"has-background wp-block-paragraph\" style=\"background-color:#f6c2ce\"><strong>TF-IDF = Frequ\u00eancia de Termos (TF) * Frequ\u00eancia Inversa nos Documentos (IDF)<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"> <strong>TF-IDF= <\/strong>[0,14; 0,05; 0,09; 0,05; 0,14; 0,05; 0,05; 0,05; 0,09; 0,05; 0,05; 0,05; 0,09; 0,09; 0,05; 0,05; 0,05; 0,05; 0,05; 0,05; 0,05] * [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"> <strong>TF-IDF= <\/strong>[0,14; 0,05; 0,09; 0,05; 0,14; 0,05; 0,05; 0,05; 0,09; 0,05; 0,05; 0,05; 0,09; 0,09; 0,05; 0,05; 0,05; 0,05; 0,05; 0,05; 0,05]<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<h2 class=\"wp-block-heading has-vivid-red-color has-text-color\" id=\"h-mapa-mental\">Mapa Mental<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Vamos fechar o artigo com um mapa mental caprichado para apoiar a sua memoriza\u00e7\u00e3o. Mesmo que voc\u00ea n\u00e3o tenha entendido todas as t\u00e9cnicas da se\u00e7\u00e3o anterior, n\u00e3o deixe de ver a imagem para apoiar os seus estudos. Divirta-se!<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"489\" src=\"https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05221645\/image-74-1024x489.png\" alt=\"Figura 2 - Mapa Mental de T\u00e9cnicas de Pr\u00e9-Processamento de Linguagem Natural.\" class=\"wp-image-1288663\" srcset=\"https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05221645\/image-74-1024x489.png 1024w, https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05221645\/image-74-300x143.png 300w, https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05221645\/image-74-768x367.png 768w, https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05221645\/image-74-610x291.png 610w, https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05221645\/image-74-150x72.png 150w, https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/05221645\/image-74.png 1528w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Figura 2 &#8211; Mapa Mental de T\u00e9cnicas de Pr\u00e9-Processamento de Linguagem Natural.<\/figcaption><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<h2 class=\"wp-block-heading has-vivid-red-color has-text-color\" id=\"h-conclusao\">Conclus\u00e3o<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Em suma, o artigo de hoje abordou t\u00e9cnicas de pr\u00e9-processamento de linguagem natural, um dos temas mais cobrados de Ci\u00eancia de Dados. Se voc\u00ea entendeu tudo de imediato, ent\u00e3o parab\u00e9ns!<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Caso contr\u00e1rio, n\u00e3o fique desanimado. Alguns assuntos parecem realmente complicados \u00e0 primeira vista. Se voc\u00ea quiser aprofundar o conte\u00fado ou tirar d\u00favidas espec\u00edficas, busque o material do Estrat\u00e9gia Concursos.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">N\u00f3s oferecemos diversos cursos em pdf, videoaulas e \u00e1udios para voc\u00ea ouvir onde quiser. Saiba mais por meio do <em>link<\/em> <a href=\"http:\/\/www.estrategiaconcursos.com.br\/cursos\/\">http:\/\/www.estrategiaconcursos.com.br\/cursos\/<\/a>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Por fim, recomendamos tamb\u00e9m que voc\u00ea fa\u00e7a muitas quest\u00f5es para treinar os t\u00f3picos apresentados. O acesso ao Sistema de Quest\u00f5es do Estrat\u00e9gia Concursos \u00e9 feito pelo <em>link<\/em>: <a href=\"https:\/\/concursos.estrategia.com\/\">https:\/\/concursos.estrategia.com\/<\/a>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Bons estudos e at\u00e9 a pr\u00f3xima!<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Cristiane Selem Ferreira Neves \u00e9 Bacharel em Ci\u00eancia da Computa\u00e7\u00e3o e Mestre em Sistemas de Informa\u00e7\u00e3o pela Universidade Federal do Rio de Janeiro (UFRJ), al\u00e9m de possuir a certifica\u00e7\u00e3o Project Management Professional pelo Project Management Institute (PMI). J\u00e1 foi aprovada nos seguintes concursos: ITERJ (2012), DATAPREV (2012), VALEC (2012), Rioprevid\u00eancia (2012\/2013), TJ-RJ (2022) e TCE-RJ (2022). Atualmente exerce o cargo efetivo de Auditora de Controle Externo \u2013 Tecnologia da Informa\u00e7\u00e3o no Tribunal de Contas do Estado do Rio de Janeiro (TCE-RJ), al\u00e9m de ser produtora de conte\u00fado dos Blogs do Estrat\u00e9gia Concursos, OAB e Carreiras Jur\u00eddicas.<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"has-text-align-center has-light-green-cyan-background-color has-background wp-block-paragraph\"><a href=\"https:\/\/www.estrategiaconcursos.com.br\/blog\/concursos-abertos\/\" target=\"_blank\" rel=\"noreferrer noopener\">Concursos Abertos<\/a><\/p>\n\n\n\n<h4 class=\"wp-block-heading has-text-align-center\" id=\"h-quer-saber-tudo-de-concursos-previstos\"><strong>Quer Saber Tudo de Concursos Previstos?<\/strong><\/h4>\n\n\n\n<h4 class=\"wp-block-heading has-text-align-center\" id=\"h-confira-nossos-artigos\"><strong>Confira Nossos Artigos<\/strong><\/h4>\n\n\n\n<p class=\"has-text-align-center has-light-green-cyan-background-color has-background wp-block-paragraph\"><a href=\"https:\/\/www.estrategiaconcursos.com.br\/blog\/concursos-2023\/\" target=\"_blank\" rel=\"noreferrer noopener\">Concursos 2023<\/a><\/p>\n\n\n\n<p class=\"has-text-align-center has-light-green-cyan-background-color has-background wp-block-paragraph\"><a href=\"https:\/\/www.estrategiaconcursos.com.br\/blog\/concursos-2024\/\" target=\"_blank\" rel=\"noreferrer noopener\">Concursos 2024<\/a><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Conhe\u00e7a as principais t\u00e9cnicas de pr\u00e9-processamento de linguagem natural, um dos t\u00f3picos mais cobrados na \u00e1rea de Ci\u00eancia de Dados.<\/p>\n","protected":false},"author":2462,"featured_media":1289553,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"post_tipo":"article","footnotes":""},"categories":[1,220180,220184,220181,1983,220182,220183,214710],"tags":[221245,40,25,221271],"tax_estado":[219964,219965,219966,219967,219968,219969,219963,219970,219971,219972,219973,219974,219975,219976,219977,219978,219979,219980,219981,219982,219983,219984,219985,219986,219987,219988,219989,219990],"class_list":["post-1288657","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-cursos-e-concursos","category-controle-gestao","category-engenharias-e-ti","category-area-financeira","category-fiscal-estadual","category-fiscal-federal","category-fiscal-municipal","category-tribunais-de-contas","tag-ciencia-de-dados","tag-concurso","tag-tecnologia-da-informacao","tag-tecnologia-da-informacao-para-concursos","tax_estado-ac","tax_estado-al","tax_estado-am","tax_estado-ap","tax_estado-ba","tax_estado-ce","tax_estado-concursos-federais","tax_estado-df","tax_estado-es","tax_estado-go","tax_estado-ma","tax_estado-mg","tax_estado-ms","tax_estado-mt","tax_estado-pa","tax_estado-pb","tax_estado-pe","tax_estado-pi","tax_estado-pr","tax_estado-rj","tax_estado-rn","tax_estado-ro","tax_estado-rr","tax_estado-rs","tax_estado-sc","tax_estado-se","tax_estado-sp","tax_estado-to"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO Premium plugin v27.7 (Yoast SEO v27.7) - https:\/\/yoast.com\/product\/yoast-seo-premium-wordpress\/ -->\n<title>Linguagem Natural: T\u00e9cnicas de Pr\u00e9-Processamento.<\/title>\n<meta name=\"description\" content=\"Conhe\u00e7a as principais t\u00e9cnicas de pr\u00e9-processamento de linguagem natural, um dos t\u00f3picos mais cobrados na \u00e1rea de Ci\u00eancia de Dados.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/\" \/>\n<meta property=\"og:locale\" content=\"pt_BR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Ci\u00eancia de Dados Passo a Passo: T\u00e9cnicas de Pr\u00e9-Processamento de Linguagem Natural.\" \/>\n<meta property=\"og:description\" content=\"Conhe\u00e7a as principais t\u00e9cnicas de pr\u00e9-processamento de linguagem natural, um dos t\u00f3picos mais cobrados na \u00e1rea de Ci\u00eancia de Dados.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/\" \/>\n<meta property=\"og:site_name\" content=\"Estrat\u00e9gia Concursos\" \/>\n<meta property=\"article:published_time\" content=\"2023-11-06T14:00:00+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/07123048\/imagemdestaque.png\" \/>\n\t<meta property=\"og:image:width\" content=\"567\" \/>\n\t<meta property=\"og:image:height\" content=\"395\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"Cristiane Selem Ferreira Neves\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@EstratConcursos\" \/>\n<meta name=\"twitter:site\" content=\"@EstratConcursos\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"Cristiane Selem Ferreira Neves\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. tempo de leitura\" \/>\n\t<meta name=\"twitter:data2\" content=\"8 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"NewsArticle\",\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/\"},\"author\":{\"name\":\"Cristiane Selem Ferreira Neves\",\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/#\\\/schema\\\/person\\\/4afd42dbb493f6ef0c87baf438fd3904\"},\"headline\":\"Ci\u00eancia de Dados Passo a Passo: T\u00e9cnicas de Pr\u00e9-Processamento de Linguagem Natural.\",\"datePublished\":\"2023-11-06T14:00:00+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/\"},\"wordCount\":1569,\"commentCount\":0,\"publisher\":{\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/dhg1h5j42swfq.cloudfront.net\\\/2023\\\/10\\\/07123048\\\/imagemdestaque.png\",\"keywords\":[\"ci\u00eancia de dados\",\"Concurso\",\"Tecnologia da Informa\u00e7\u00e3o\",\"tecnologia da Informa\u00e7\u00e3o para concursos\"],\"articleSection\":[\"Concursos P\u00fablicos\",\"Controladorias\\\/Gest\u00e3o (CGU, CGE, STN, EPPGG)\",\"Engenharias e TI\",\"Financeira (BACEN, CVM, SUSEP e BNDES)\",\"Fiscal - Estadual (ICMS)\",\"Fiscal - Federal (RFB e AFT)\",\"Fiscal - Municipal (ISS)\",\"Tribunais de Contas (TCU, TCE, TCM)\"],\"inLanguage\":\"pt-BR\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/#respond\"]}],\"copyrightYear\":\"2023\",\"copyrightHolder\":{\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/#organization\"}},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/\",\"url\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/\",\"name\":\"Linguagem Natural: T\u00e9cnicas de Pr\u00e9-Processamento.\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/dhg1h5j42swfq.cloudfront.net\\\/2023\\\/10\\\/07123048\\\/imagemdestaque.png\",\"datePublished\":\"2023-11-06T14:00:00+00:00\",\"description\":\"Conhe\u00e7a as principais t\u00e9cnicas de pr\u00e9-processamento de linguagem natural, um dos t\u00f3picos mais cobrados na \u00e1rea de Ci\u00eancia de Dados.\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/#breadcrumb\"},\"inLanguage\":\"pt-BR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/#primaryimage\",\"url\":\"https:\\\/\\\/dhg1h5j42swfq.cloudfront.net\\\/2023\\\/10\\\/07123048\\\/imagemdestaque.png\",\"contentUrl\":\"https:\\\/\\\/dhg1h5j42swfq.cloudfront.net\\\/2023\\\/10\\\/07123048\\\/imagemdestaque.png\",\"width\":567,\"height\":395},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/tecnicas-pre-processamento-linguagem-natural\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"In\u00edcio\",\"item\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Ci\u00eancia de Dados Passo a Passo: T\u00e9cnicas de Pr\u00e9-Processamento de Linguagem Natural.\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/#website\",\"url\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/\",\"name\":\"Estrat\u00e9gia Concursos\",\"description\":\"O blog da Estrat\u00e9gia Concursos traz not\u00edcias sobre concursos e artigos de professores oferecendo cursos para concursos (pdf + videaulas) no site.\",\"publisher\":{\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"pt-BR\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/#organization\",\"name\":\"Estrat\u00e9gia Concursos\",\"url\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/dhg1h5j42swfq.cloudfront.net\\\/2025\\\/06\\\/03203428\\\/logo_concursos-1.jpg\",\"contentUrl\":\"https:\\\/\\\/dhg1h5j42swfq.cloudfront.net\\\/2025\\\/06\\\/03203428\\\/logo_concursos-1.jpg\",\"width\":230,\"height\":60,\"caption\":\"Estrat\u00e9gia Concursos\"},\"image\":{\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/x.com\\\/EstratConcursos\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/#\\\/schema\\\/person\\\/4afd42dbb493f6ef0c87baf438fd3904\",\"name\":\"Cristiane Selem Ferreira Neves\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/75398471ed0bdb2b96874c4f62eccff4b792181d3ee38d22ddd2bcb33c82e45a?s=96&d=mm&r=g\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/75398471ed0bdb2b96874c4f62eccff4b792181d3ee38d22ddd2bcb33c82e45a?s=96&d=mm&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/75398471ed0bdb2b96874c4f62eccff4b792181d3ee38d22ddd2bcb33c82e45a?s=96&d=mm&r=g\",\"caption\":\"Cristiane Selem Ferreira Neves\"},\"description\":\"Cristiane Selem Ferreira Neves \u00e9 Bacharel em Ci\u00eancia da Computa\u00e7\u00e3o e Mestre em Sistemas de Informa\u00e7\u00e3o pela Universidade Federal do Rio de Janeiro (UFRJ), al\u00e9m de possuir a certifica\u00e7\u00e3o Project Management Professional pelo Project Management Institute (PMI). J\u00e1 foi aprovada nos seguintes concursos: ITERJ (2012), DATAPREV (2012), VALEC (2012), Rioprevid\u00eancia (2012\\\/2013), TJ-RJ (2022), TCE-RJ (2022) e CGE-SC (2022\\\/2023). Atualmente exerce o cargo efetivo de Auditora de Controle Externo \u2013 Tecnologia da Informa\u00e7\u00e3o e integra o corpo docente da Escola de Contas de Gest\u00e3o do TCE-RJ, al\u00e9m de ser produtora de conte\u00fado dos Blogs do Estrat\u00e9gia Concursos, OAB e Carreiras Jur\u00eddicas.\",\"url\":\"https:\\\/\\\/www.estrategiaconcursos.com.br\\\/blog\\\/author\\\/cristianeselemgmail-com\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO Premium plugin. -->","yoast_head_json":{"title":"Linguagem Natural: T\u00e9cnicas de Pr\u00e9-Processamento.","description":"Conhe\u00e7a as principais t\u00e9cnicas de pr\u00e9-processamento de linguagem natural, um dos t\u00f3picos mais cobrados na \u00e1rea de Ci\u00eancia de Dados.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/","og_locale":"pt_BR","og_type":"article","og_title":"Ci\u00eancia de Dados Passo a Passo: T\u00e9cnicas de Pr\u00e9-Processamento de Linguagem Natural.","og_description":"Conhe\u00e7a as principais t\u00e9cnicas de pr\u00e9-processamento de linguagem natural, um dos t\u00f3picos mais cobrados na \u00e1rea de Ci\u00eancia de Dados.","og_url":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/","og_site_name":"Estrat\u00e9gia Concursos","article_published_time":"2023-11-06T14:00:00+00:00","og_image":[{"width":567,"height":395,"url":"https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/07123048\/imagemdestaque.png","type":"image\/png"}],"author":"Cristiane Selem Ferreira Neves","twitter_card":"summary_large_image","twitter_creator":"@EstratConcursos","twitter_site":"@EstratConcursos","twitter_misc":{"Escrito por":"Cristiane Selem Ferreira Neves","Est. tempo de leitura":"8 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"NewsArticle","@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/#article","isPartOf":{"@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/"},"author":{"name":"Cristiane Selem Ferreira Neves","@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/#\/schema\/person\/4afd42dbb493f6ef0c87baf438fd3904"},"headline":"Ci\u00eancia de Dados Passo a Passo: T\u00e9cnicas de Pr\u00e9-Processamento de Linguagem Natural.","datePublished":"2023-11-06T14:00:00+00:00","mainEntityOfPage":{"@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/"},"wordCount":1569,"commentCount":0,"publisher":{"@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/#organization"},"image":{"@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/#primaryimage"},"thumbnailUrl":"https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/07123048\/imagemdestaque.png","keywords":["ci\u00eancia de dados","Concurso","Tecnologia da Informa\u00e7\u00e3o","tecnologia da Informa\u00e7\u00e3o para concursos"],"articleSection":["Concursos P\u00fablicos","Controladorias\/Gest\u00e3o (CGU, CGE, STN, EPPGG)","Engenharias e TI","Financeira (BACEN, CVM, SUSEP e BNDES)","Fiscal - Estadual (ICMS)","Fiscal - Federal (RFB e AFT)","Fiscal - Municipal (ISS)","Tribunais de Contas (TCU, TCE, TCM)"],"inLanguage":"pt-BR","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/#respond"]}],"copyrightYear":"2023","copyrightHolder":{"@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/#organization"}},{"@type":"WebPage","@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/","url":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/","name":"Linguagem Natural: T\u00e9cnicas de Pr\u00e9-Processamento.","isPartOf":{"@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/#website"},"primaryImageOfPage":{"@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/#primaryimage"},"image":{"@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/#primaryimage"},"thumbnailUrl":"https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/07123048\/imagemdestaque.png","datePublished":"2023-11-06T14:00:00+00:00","description":"Conhe\u00e7a as principais t\u00e9cnicas de pr\u00e9-processamento de linguagem natural, um dos t\u00f3picos mais cobrados na \u00e1rea de Ci\u00eancia de Dados.","breadcrumb":{"@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/#breadcrumb"},"inLanguage":"pt-BR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/"]}]},{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/#primaryimage","url":"https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/07123048\/imagemdestaque.png","contentUrl":"https:\/\/dhg1h5j42swfq.cloudfront.net\/2023\/10\/07123048\/imagemdestaque.png","width":567,"height":395},{"@type":"BreadcrumbList","@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/tecnicas-pre-processamento-linguagem-natural\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"In\u00edcio","item":"https:\/\/www.estrategiaconcursos.com.br\/blog\/"},{"@type":"ListItem","position":2,"name":"Ci\u00eancia de Dados Passo a Passo: T\u00e9cnicas de Pr\u00e9-Processamento de Linguagem Natural."}]},{"@type":"WebSite","@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/#website","url":"https:\/\/www.estrategiaconcursos.com.br\/blog\/","name":"Estrat\u00e9gia Concursos","description":"O blog da Estrat\u00e9gia Concursos traz not\u00edcias sobre concursos e artigos de professores oferecendo cursos para concursos (pdf + videaulas) no site.","publisher":{"@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.estrategiaconcursos.com.br\/blog\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"pt-BR"},{"@type":"Organization","@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/#organization","name":"Estrat\u00e9gia Concursos","url":"https:\/\/www.estrategiaconcursos.com.br\/blog\/","logo":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/#\/schema\/logo\/image\/","url":"https:\/\/dhg1h5j42swfq.cloudfront.net\/2025\/06\/03203428\/logo_concursos-1.jpg","contentUrl":"https:\/\/dhg1h5j42swfq.cloudfront.net\/2025\/06\/03203428\/logo_concursos-1.jpg","width":230,"height":60,"caption":"Estrat\u00e9gia Concursos"},"image":{"@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/x.com\/EstratConcursos"]},{"@type":"Person","@id":"https:\/\/www.estrategiaconcursos.com.br\/blog\/#\/schema\/person\/4afd42dbb493f6ef0c87baf438fd3904","name":"Cristiane Selem Ferreira Neves","image":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/secure.gravatar.com\/avatar\/75398471ed0bdb2b96874c4f62eccff4b792181d3ee38d22ddd2bcb33c82e45a?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/75398471ed0bdb2b96874c4f62eccff4b792181d3ee38d22ddd2bcb33c82e45a?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/75398471ed0bdb2b96874c4f62eccff4b792181d3ee38d22ddd2bcb33c82e45a?s=96&d=mm&r=g","caption":"Cristiane Selem Ferreira Neves"},"description":"Cristiane Selem Ferreira Neves \u00e9 Bacharel em Ci\u00eancia da Computa\u00e7\u00e3o e Mestre em Sistemas de Informa\u00e7\u00e3o pela Universidade Federal do Rio de Janeiro (UFRJ), al\u00e9m de possuir a certifica\u00e7\u00e3o Project Management Professional pelo Project Management Institute (PMI). J\u00e1 foi aprovada nos seguintes concursos: ITERJ (2012), DATAPREV (2012), VALEC (2012), Rioprevid\u00eancia (2012\/2013), TJ-RJ (2022), TCE-RJ (2022) e CGE-SC (2022\/2023). Atualmente exerce o cargo efetivo de Auditora de Controle Externo \u2013 Tecnologia da Informa\u00e7\u00e3o e integra o corpo docente da Escola de Contas de Gest\u00e3o do TCE-RJ, al\u00e9m de ser produtora de conte\u00fado dos Blogs do Estrat\u00e9gia Concursos, OAB e Carreiras Jur\u00eddicas.","url":"https:\/\/www.estrategiaconcursos.com.br\/blog\/author\/cristianeselemgmail-com\/"}]}},"_links":{"self":[{"href":"https:\/\/www.estrategiaconcursos.com.br\/blog\/wp-json\/wp\/v2\/posts\/1288657","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.estrategiaconcursos.com.br\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.estrategiaconcursos.com.br\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.estrategiaconcursos.com.br\/blog\/wp-json\/wp\/v2\/users\/2462"}],"replies":[{"embeddable":true,"href":"https:\/\/www.estrategiaconcursos.com.br\/blog\/wp-json\/wp\/v2\/comments?post=1288657"}],"version-history":[{"count":0,"href":"https:\/\/www.estrategiaconcursos.com.br\/blog\/wp-json\/wp\/v2\/posts\/1288657\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.estrategiaconcursos.com.br\/blog\/wp-json\/wp\/v2\/media\/1289553"}],"wp:attachment":[{"href":"https:\/\/www.estrategiaconcursos.com.br\/blog\/wp-json\/wp\/v2\/media?parent=1288657"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.estrategiaconcursos.com.br\/blog\/wp-json\/wp\/v2\/categories?post=1288657"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.estrategiaconcursos.com.br\/blog\/wp-json\/wp\/v2\/tags?post=1288657"},{"taxonomy":"tax_estado","embeddable":true,"href":"https:\/\/www.estrategiaconcursos.com.br\/blog\/wp-json\/wp\/v2\/tax_estado?post=1288657"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}