Categorias: Concursos Públicos

Gabarito Extraoficial – TCM – BA – Análise de Informações – TEM RECURSO!

Abaixo comentamos a prova de Auditor do Tribunal de Contas Municipal da Bahia, mais especificamente relacionadas ao conteúdo de Análise de Informações. Lembrando que trata-se de um gabarito extraoficial.

Ano: 2018 Banca: CESPE Órgão: TCM-BA Cargo: Auditor de Contas Questão: 08

Comentário: Os dados são coletados, por meio de processos organizacionais, nos ambientes interno e externo. Em suma, dados são sinais que não foram processados, correlacionados, integrados, avaliados ou interpretados de qualquer forma. Esta classe representa a matéria-prima a ser utilizada na produção de informações.

A próxima classe é a da informação propriamente dita. Nesta, os dados passam por algum tipo de processamento para serem exibidos em uma forma inteligível às pessoas que irão utilizá-los. Processar dados inclui a revelação de fotografias de um filme, as transmissões de rádio transformadas em um formato de relatório padronizado, a exibição de arquivos de computador como texto ou gráfico em uma tela, a grade de coordenadas em um mapa etc. O processo de transformação envolve a aplicação de procedimentos que incluem formatação, tradução, fusão, impressão e assim por diante. A maior parte deste processo pode ser executada automaticamente.

Uma vez que dados tenham sido transformados em informações, pelo menos em uma interpretação inicial, é possível refinar as informações mediante um processo de elaboração. As informações resultantes deste processo incluem características adicionais do problema, geram hipóteses, consequências das hipóteses, sugerem soluções para problemas, explanação e justificativas de sugestões, crítica de argumentos etc. Portanto, a transformação de dados em informações deve ser vista simplificadamente, como um tipo de pré-processamento de um processo de elaboração.

O próximo nível é o do conhecimento, que pode ser definido como sendo informações que foram analisadas e avaliadas sobre a sua confiabilidade, sua relevância e sua importância. Neste caso, o conhecimento é obtido pela interpretação e integração de vários dados e informações para iniciar a construção de um quadro de situação. O processo de transformação é realizado por meio de avaliação de dados e informações. Os insumos provenientes das diversas fontes são analisados e combinados na síntese de um produto final, o conhecimento. É por meio do conhecimento que aqueles que assessoram as decisões buscam uma compreensão mais efetiva da situação problema.

Vejam que o relatório, puro e simples é uma informação, que passou pelo processo de elaboração. Ela ainda não foi avaliada quanto a sua confiabilidade, relevância e importância, essa análise será feita pelo gestor depois do receber o relatório.

Gabarito extraoficial: B.

Ano: 2018 Banca: CESPE Órgão: TCM-BA Cargo: Auditor de Contas Questão: 09

Comentário: Vimos ao longo do nosso curso de análise de informações que as tuplas são linhas de uma tabela. Elas, quando consideramos a referência teórica e matemática do modelo relacional não são ordenadas e não se repetem. Vamos agora analisar cada uma das alternativas acima.

A) Um subconjunto de uma tupla é outra tupla, inclusive se lembrarmos da propriedade de fechamento das operações de álgebra relacional, podemos perceber que o resultado de uma projeção vai reduzir as tuplas de uma tabela aos atributos definidos na operação.

B) Uma tupla de uma tabela não pode ser vazia, isso é verdade. Para preencher valores desconhecidos usamos o valor nulo. Além disso ela representa um conjunto de atributos, a quantidade de atributos de uma tupla é denominada grau e pode variar de 1 até n. Logo, essa é a nossa resposta.

C) A tupla é a linha da tabela. Representa uma instância ou um valor armazenado. Pense na tabela aluno, cada aluno armazenado é uma tupla da tabela. Contudo, uma tabela pode ter atributos que não são específicos da tupla como a quantidade máxima de registros.

D) Os as tuplas não são ordenadas de cima para baixo, nem seus atributos ou componentes são ordenados da esquerda para a direita.

E) Pela definição de modelo relacional do Codd os atributos de uma relação devem ter valores atômicos. Logo, cada coluna deve ter um valor dentro do seu respectivo domínio. Este pode ou não aceitar valores nulos. Sendo assim, essa afirmação também é uma afirmação certa, no meu ponto de vista.

Gabarito extraoficial: Acho que cabe recurso (respostas plausíveis B e E)

Ano: 2018 Banca: CESPE Órgão: TCM-BA Cargo: Auditor de Contas Questão: 10

Comentário: Vejam que essa questão apresenta um conceito associado ao modelo entidade-relacionamento. Uma entidade forte significa que possui atributos suficientes para identificar de forma unívoca cada instancia ou elemento de um conjunto de entidade. Logo, podemos marcar a resposta na alternativa A. Vamos agora procurar os erros das demais alternativas.

B) Uma entidade pode ter um atributo que seja chave, contudo, ele sozinho não consegue identificar um elemento da entidade. Para compor a chave ele precisa de um atributo que vai ser definido na entidade forte a ele associada. Sendo assim, temos uma alternativa incorreta.

C) A chave primária de uma relação pode ser classificada em simples, quando possuir apenas um atributo, ou composta, quando tiver dois ou mais atributos. Sendo assim, temos mais uma alternativa incorreta.

D) Uma instância de relacionamento é uma associação entre entidades, que inclui exatamente uma entidade de cada tipo de entidade participante. A identificação do relacionamento é feita pela associação entre as chaves das entidades participantes do relacionamento.

E) Os relacionamentos binários admitem cardinalidade máxima 1:1, 1:N e N:M. Logo temos mais uma afirmação errada.

Gabarito extraoficial: A.

Ano: 2018 Banca: CESPE Órgão: TCM-BA Cargo: Auditor de Contas Questão: 11

Comentário: Vamos comentar cada uma das alternativas acima.

A) Os fatos e dimensões são tabelas dos bancos de dados multidimensionais estruturados em uma base relacional. Assim, a alternativa A está incorreta.

B) No modelo estrela as dimensões não são normalizadas. A normalização aparece nos modelos floco de neve e tem por objetivo reduzir a redundância dos dados e não a melhora do desempenho das consultas. Temos, portanto, uma afirmação incorreta.

C) Pela justificativa da alternativa anterior, podemos observar que o modelo floco de neve reduz o espeço de armazenamento quando reduz a redundância dos dados. Assim, a alternativa C está errada.

D) Cada dimensão deve conter os atributos descritivos sobre os dados armazenados na tabela fato. Logo, alternativa D está errada.

E) As tabelas fatos podem ser estruturadas de três forma distintas que representam a forma como queremos armazenar as informações: transacional, snapshot periódico e snapshot acumulado. Essa classificação vai influenciar a escolha da granularidade da tabela fato. Assim, temos nossa resposta na alternativa E.

Gabarito extraoficial: E.

Ano: 2018 Banca: CESPE Órgão: TCM-BA Cargo: Auditor de Contas Questão: 12

Comentário: Vamos comentar cada uma das alternativas, lembrando que o processo do CRISP-DM é organizado em um conjunto de etapas: entendimento do negócio, seleção dos dados (data understanding), preparação dos dados, modelagem dos dados, avaliação do processo e execução (deployment).

A) Vejam que a alternativa A está incorreta, as ações descritas são associadas a fase de avaliação do processo.

B) O CRISP-DM propõe a ser uma referência que propõe uma visão geral do ciclo de vida de um projeto de mineração de dados, logo, a alternativa B está incorreta.

C) Correto! Na fase de entendimento ou seleção dos dados é traçado o perfil dos dados. Neste momento é avaliada a qualidade dos dados.

D) A preparação dos dados está mais preocupada em trazer e ajustar os dados para execução do algoritmo de mineração. A fase de preparação de dados consiste na preparação dos dados que visa a coleta, limpeza, transformação, integração e formatação dos dados definidos na etapa anterior. Logo, temos mais uma alternativa incorreta.

E) Não existe uma fase de avaliação dos dados dentro do processo. Logo, temos mais uma alternativa incorreta.

Gabarito extraoficial: C

Ano: 2018 Banca: CESPE Órgão: TCM-BA Cargo: Auditor de Contas Questão: 13

Comentário: Vamos analisar cada uma das alternativas acima.

A) A classificação baseia-se na definição de um conjunto de rótulos que permitem classificar uma nova informação em um conjunto de classes pré-definidas. Veja que essas classes não necessariamente são valores reais. Logo, temos uma alternativa incorreta.

B) A regressão não vai mapear valores em um conjunto de classes. Se você pensar que a regressão é uma função de múltiplas variáveis a imagem desta pode ser um conjunto fechado, porém, contínuo. Logo, temos uma alternativa errada.

C) A alternativa C descreve uma característica da tarefa de clusterização. Logo, temos uma alternativa incorreta.

D) Essa é a nossa resposta. Basicamente, o SVM é um algoritmo supervisionado que tenta criar uma linha (ou uma fronteira) que melhor separa os dados. Essa linha normalmente chamamos de “Hyperplano”. Para entender um pouco mais desse algoritmo acesse o link. Veja que ele aplica o conceito de particionamento. Agora ideia da classificação é construir um conceito de separabilidade entre os novos valores de entrada e as classes ou rótulos estabelecidos.

E) A alternativa apresenta o conceito de coocorrência que está relacionado ao conceito de regra de associação, e tenta coloca-lo dentro do contexto de agrupamento. Sendo assim, temos mais uma alternativa incorreta.

Gabarito extraoficial: D.

Ano: 2018 Banca: CESPE Órgão: TCM-BA Cargo: Auditor de Contas Questão: 14

Comentário: Vamos comentar cada uma das alternativas acima:

A) Data preparation é o processo decoletar, limpar, normalizar, combinar, estruturar e organizar dados para análise. Ele é o passo inicial (e fundamental) para que o trabalho com Big Data seja bem-sucedido, uma vez que aumenta a qualidade dos dados – e, consequentemente, dos resultados com data mining. Dados “pobres”, de qualidade ruim, geram resultados incorretos e não-confiáveis ao fim do processo de uso das tecnologias de Data Science. Vejam que a mineração de dados é uma ação feita em uma etapa posterior a preparação dos dados. Logo, temos uma alternativa incorreta.

B) Observem que os v´s listados na alternativa não são os que está descrito na definição de big data, os conceitos corretos são: Volume, Velocidade, Variedade, Veracidade e Valor.

C) Esse conceito de transformar processos de gestão e cultura está associado a outro conceito, o de gestão de processos de negócio, conhecido como BPM. Logo, temos uma alternativa incorreta.

D) Um Sistema de Recomendaçãocombina várias técnicas computacionais para selecionar itens personalizados com base nos interesses dos usuários e conforme o contexto no qual estão inseridos. Tais itens podem assumir formas bem variadas como, por exemplo, livros, filmes, notícias, música, vídeos, anúncios, links patrocinados, páginas de internet, produtos de uma loja virtual, etc. Empresas como Amazon, Netflix e Google são reconhecidas pelo uso intensivo de sistemas de recomendação com os quais obtém grande vantagem competitiva. Veja que não existe nenhuma obrigação dos sistemas serem estruturados em um cluster e usarem computação distribuída.

E) Essa é a nossa resposta, e confesso desde já que não apresentamos esse conceito em nosso material. Data scraping (do inglês, raspagem de dados) é uma técnica computacional na qual um programa extrai dados de saída legível somente para humanos, proveniente de um serviço ou aplicativo. Os dados extraídos geralmente são minerados e estruturados em um formato padrão como CSV, XML ou JSON. Vejam que o objetivo é transformar os dados não estruturados em modelos mais fáceis de manipular.

Gabarito extraoficial: E.

Ano: 2018 Banca: CESPE Órgão: TCM-BA Cargo: Auditor de Contas Questão: 15

Comentário: Vamos analisar cada uma das alternativas.

A) O valor padrão para uma variável não necessariamente é zero. Isso pode atrapalhar a análise dos dados. Há basicamente cinco cursos de ação possíveis em situações de perda de dados: a eliminação completa do registro, a eliminação parcial do registro, o preenchimento com base na média da variável, o preenchimento por interpolação, ou a criação da categoria ou valor padrão, por exemplo, “não respondeu”. Logo temos uma alternativa incorreta.

B) CSV (Comma-Separated Values) é um formato simples de armazenamento, que agrupa as informações de arquivos de texto em planilhas, para as trocas de dados de um banco de dados ou uma planilha entre aplicativos. Cada linha em um texto CSV representa uma linha em uma planilha. Cada célula é geralmente separada por vírgula ou um outro caractere. Fato é que a todos os editores de texto e planilhas aceito documentos deste tipo. Logo, essa é a nossa resposta.

C) Quando a exclusão casewise de dados ausentes é selecionada, somente os casos que não contiverem nenhum dado faltante para nenhuma das variáveis selecionadas para a análise serão incluídos na análise. No caso de correlações, todas as correlações são calculadas excluindo casos que possuem dados ausentes para qualquer uma das variáveis selecionadas, sendo assim, todas as correlações são baseadas no mesmo conjunto de dados. Vejam que eliminamos apenas os registros que possuem dados ausentes.

D) Vimos que as variáveis nos estudos estatísticos são os valores que assumem determinadas características dentro de uma pesquisa e podem ser classificadas em qualitativas ou quantitativas. Existem outras classificações para as variáveis como discretas e contínuas, mas a classificação descrita no enunciado está totalmente equivocada.

E) A entrada de dados deve assumir certas convenções: os dados devem estar no formato de matriz; cada linha da matriz corresponde a uma unidade experimental, sendo, portanto, um elemento da população ou amostra no qual observamos as variáveis; e cada coluna da matriz corresponde a uma variável. Veja que não existe a necessidade de um atributo identificador na matriz dos dados. Logo, essa alternativa também está incorreta.

Gabarito extraoficial: B

De fato a prova não foi fácil! Espero que os comentários ajudem no entendimento do assunto.

Qualquer dúvida estou às ordens,

Forte abraço,

Thiago Cavalcanti

Thiago Rodrigues Cavalcanti