Skip to main content

Atividades Realizadas News Cloud

Atividades Realizadas

DataAtividades RealizadasPresentes
09/02/2024EQUADOR-ECO, PERU-ECO, COLOMBIA-EES - Retomada da segunda coletaRafael, Maria Clara Tomazini
09/02/2024EQUADOR-ECO, PERU-ECO, COLOMBIA-EES - Ajustes nas coletasRafael, Maria Clara Tomazini
02/02/2024EQUADOR-ECO, PERU-ECO, COLOMBIA-EES - Revisão e planjamento das coletas restantesRafael, Maria Clara Tomazini
15/12/2023EQUADOR-ECO, PERU-ECO, COLOMBIA-EES - Início da indexação no recollRafael, Maria Clara Tomazini
24/11/2023EQUADOR-ECO - Ajustes e organização da base de dadosRafael, Maria Clara Tomazini
24/11/2023PERU-ECO - Ajustes e organização da base de dadosRafael, Maria Clara Tomazini
24/11/2023COLOMBIA-EES - Ajustes e organização da base de dadosRafael, Maria Clara Tomazini
09/10/2023COLOMBIA-ELT - Início da estrturação da coletaRafael, Maria Clara Tomazini
09/10/2023PERU-LRP - Início da estrturação da coletaRafael, Maria Clara Tomazini
09/10/2023PERU-ECO - Ajustes dos scripts e retomada das coleta 01 e 02Rafael, Maria Clara Tomazini
09/10/2023EQUADOR-ECO - Ajustes dos scripts e retomada das coleta 01 e 02Rafael, Maria Clara Tomazini
29/09/2023COLOMBIA-EES - Ajustes dos scripts e finalização da coleta 02Rafael, Maria Clara Tomazini
25/09/2023COLOMBIA-EES - Ajustes dos scripts do tratemento dos links e coleta 02Rafael, Maria Clara Tomazini
15/09/2023COLOMBIA-EES - Ajustes finais script coleta 02Rafael, Maria Clara Tomazini
15/09/2023COLOMBIA-EES - Tratamento dos links para a coleta 02Rafael, Maria Clara Tomazini
15/09/2023COLOMBIA-EES - Ajustes finais no script da coleta 01Rafael, Maria Clara Tomazini
04/09/2023COLOMBIA-EES - Ajustes no script e continuação da coleta 01Rafael, Maria Clara Tomazini, Malak Chefrid
25/08/2023COLOMBIA-EES - Configuração de contas novo sistema do LabRIRafael, Maria Clara Tomazini, Malak Chefrid
07/06/2023EQUADOR-ECO - Início da coleta das notíciasRafael, Maria Clara Tomazini, Leonardo Petrilli
07/06/2023EQUADOR-ECO - Finalização da estrutura da coleta 01 e 02Rafael, Maria Clara Tomazini, Leonardo Petrilli
02/06/2023EQUADOR-ECO - Estruturação da coleta do jornalRafael, Maria Clara Tomazini
31/05/2023PERU-ECO - Ajustes na segunda coletaRafael, Maria Clara Tomazini
24/05/2023COLOMBIA-EES - Continuação da estruturação da coleta do jornalRafael, Maria Clara Tomazini
23/05/2023PERU-DCO, COLOMBIA-HDM - Geração de htmls e Indexação no recollRafael, Maria Clara Tomazini
16/05/2023COLOMBIA-EES - Estruturação da coleta (continuação)Rafael, Maria Clara Tomazini, Leonardo Petrilli
10/05/2023PERU-ECO, PERU-DCO, COLOMBIA-HDM - Correção de problemas no scriptRafael, Maria Clara Tomazini
05/05/2023COLOMBIA-EES - Estruturação da coleta do jornalRafael, Maria Clara Tomazini
05/05/2023EQUADOR- ELU - Estruturação da coleta do jornalRafael, Maria Clara Tomazini
03/05/2023PERU-DCO - Ajustes no scriptRafael, Maria Clara Tomazini
03/05/2023PERU-ECO - Ajustes no scriptRafael, Maria Clara Tomazini
03/05/2023COLOMBIA-HDM - Ajustes no scriptRafael, Maria Clara Tomazini
28/04/2023COLOMBIA-HDM - Início da coletaRafael, Maria Clara Tomazini
28/04/2023PERU-ECO - Ajustes chrome seleniumRafael, Maria Clara Tomazini
26/04/2023PERU-ECO - Início da Coleta 02Rafael, Maria Clara Tomazini
25/04/2023PERU-DCO - Início da Coleta 02Rafael, Maria Clara Tomazini
25/04/2023PERU-DCO - Ajustes para geração de htmls a partir das informações inseridas no banco jsonRafael, Maria Clara Tomazini
14/04/2023PERU-DCO - Verificação do problema em relação ao intervalo de datasRafael, Maria Clara Tomazini
14/04/2023PERU-DCO - Indexação dos arquivos no RecollRafael, Maria Clara Tomazini
14/04/2023Ajuste na estrutura das pastasRafael, Maria Clara Tomazini
31/03/2023Fluxograma de interação entre os scriptsRafael, Maria Clara Tomazini, Artur Dantas, Leonardo Petrilli
31/03/2023Fluxograma das pastasRafael, Maria Clara Tomazini, Artur Dantas, Leonardo Petrilli
31/03/2023BRASIL-FBV - Indexação da FBV no RecollRafael, Maria Clara Tomazini, Artur Dantas, Leonardo Petrilli
31/03/2023PERU-DCO - Implementação de controle temporal de coleta por diaRafael, Maria Clara Tomazini, Artur Dantas, Leonardo Petrilli
24/03/2023PERU-DCO - Aperfeiçoamento da filtragem de datas no banco jsonRafael, Maria Clara Tomazini
10/03/2023PERU-DCO - Tratamento da autoria finalizadoRafael, Maria Clara Tomazini
10/03/2023PERU-DCO - Inserção do nome do paíse sede do jornalRafael, Maria Clara Tomazini
10/03/2023PERU-DCO - Finalização dos ajustes nos htmlsRafael, Maria Clara Tomazini
09/03/2023Ajustes nos htmlsRafael, Maria Clara Tomazini
09/03/2023Reestruturação das pastasRafael, Maria Clara Tomazini
09/03/2023BRASIL-FBV - Início da indexação da FBV no RecollRafael, Maria Clara Tomazini
03/03/2023Atualização do script de geração de htmlRafael, Maria Clara Tomazini
03/03/2023Atualização do script do banco jsonRafael, Maria Clara Tomazini
02/03/2023PERU-DCO - Coleta de parágrafosRafael, Maria Clara Tomazini
17/02/2023ECU-UNI - Primeira versão do script e coleta finalizadaRafael, Maria Clara Tomazini
10/02/2023ECU-UNI - Estrturação da coletaRafael, Maria Clara Tomazini
10/02/2023BRA-FBV - Realização da coleta dos pdfsRafael, Maria Clara Tomazini
09/02/2023BRA-FBV - Início da extração dos pdfs do jornal brasileiro Folha de Boa VistaRafael, Maria Clara Tomazini
09/02/2023PERU-ECO - Coleta do jornal peruano El ComercioRafael, Maria Clara Tomazini
26/01/2023PERU-DCO - Inicio da coleta do jornal peruano Diario CorreoRafael, Maria Clara Tomazini
08/12/2022BRA-CBZ - Ajuste na coleta dos pdfsRafael, Maria Clara Tomazini
01/12/2022BRA-CBZ - Coleta dos pdfs de 01/06/1999 a 31/08/2020Rafael, Maria Clara Tomazini
21/10/2022BRA-CBZ e BRA-FBV - Extração de link e data e inserção no banco jsonRafael, Vitório Aflalo, Maria Clara Tomazini
21/10/2022GZP extração dos links das notícias e da dataRafael, Vitório Aflalo, Maria Clara Tomazini
08/09/2022Ajuste para tornar mais rápida a coleta das informações que não foram inseridas no bancoRafael, Vitório Aflalo
11/08/2022ESP - ajustes dos erros finais anotados no READMERafael, Cíntia
10/08/2022ESP - ajustes no tratamento de listas de autoria nos anos de 2015 e 2016Rafael, Cíntia
08/08/2022ESP - ajustes de erros anotados no READMERafael, Cíntia
04/08/2022ESP - adição de novas formas de extração das tags data, horario, data atualizado, horario atualizado, autoria e paragrafo em 2022, ajustes no tratamento da tag atualizacao em 2022 e tentativas de ajuste no erro da tag autoria 3.1 em 2015Rafael, Cíntia
03/08/2022ESP - adição de novas extrações das tags subtitulo, data, atualizacao, autoria, paragrafo no ano de 2022Rafael, Cíntia
02/08/2022ESP - ajustes no tratamento da tag titulo em 2021 e no tratamento da tag autoria em 2015Rafael, Cíntia
01/08/2022ESP - ajustes na extração de dados de 2019, criação da extração de link e categoria na função de exceção, ajustes no tratamento das tags titulo, link e autoria em 2020 e 2021Rafael, Cíntia
29/07/2022ESP - ajustes no tratamento da tag autoria em 2018, 2019 e 2020; tentativa de ajustar erro em notícia de 2019; início da revisão do ano de 2020Rafael, Cíntia
28/07/2022ESP - adição de nova forma de extração de parágrafos em 2016; limpeza e ajustes no tratamento das tags autoria e parágrafo em 2016 e 2017; início do tratamento de 2018Rafael, Cíntia
27/07/2022ESP - ajustes na extração da tag local em 2015, adição de nova forma de extração da tag autoria e horário atualizado em 2015, ajustes no tratamento das tags autoria em 2015 e 2016Rafael, Cíntia
26/07/2022ESP - ajustes nas extrações e tratamentos das tags local, autoria, palavras-chave entre 2014 e 2015, ajustes na remoção de itens vazios das listas paragrafosRafael, Cíntia
25/07/2022ESP - ajustes nas extrações e tratamentos das tags autoria nos anos de 2012 à 2014, ajustes na remoção de itens duplicados das listasRafael, Cíntia
08/07/2022ESP - ajustes nas extrações e tratamentos das tags autoria nos anos 2012 e 2013Rafael, Cíntia
07/07/2022ESP - ajustes na extração e tratamento das tags palavras-chaves e autoria em 2010, e autoria e paragrafo em 2012Rafael, Cíntia
06/07/2022ESP - ajustes nas extrações da lista paragrafos, e no tratamento das autorias e palavras-chaves em 2010Rafael, Cíntia
05/07/2022ESP - ajustes na extração e tratamento das tags autoria em 2001, 2008 e 2009, paragrafos, data e horario em 2009 e paragrafos em 2010Rafael, Cíntia
04/07/2022ESP - ajustes na tag autoria no ano de 2008Rafael, Cíntia
01/07/2022ESP - ajustes no tratamento da tag data em 2001, titulo em 2004, e adição de extração das tags autoria e horário em 2007 e autoria em 2008Rafael, Cíntia
30/06/2022ESP - conferindo extração dos anos de 2002 à 2004, e tratamento da tag título no ano de 2004Rafael, Cíntia
28/06/2022ESP - conclusão da criação da nova função; check nas extrações de 2001, 2002 e 2003Rafael, Cíntia
27/06/2022ESP - avanços no desenvolvimento de nova função para notícias específicas de 2001: tags autoria, local, data, subtitulo e tituloRafael, Cíntia
24/06/2022ESP - ajustes na extração da tag categoria e início da criação de nova função para notícias específicas de 2001Rafael, Cíntia
23/06/2022ESP - ajustes no tratamento da tag titulo no ano de 2001 (função padrão)Rafael, Cíntia
21/06/2022ESP - ajustes na extração e no tratamento das tags paragrafos e titulo e readequação das funções padrão e exceção, nos anos 2000 e 2001Rafael, Cíntia
20/06/2022ESP - ajustes na extração e no tratamento da tag autoria e da tag data, em ambas funções padrão e de exceção, no ano 2000Rafael, Cíntia
14/06/2022ESP - ajustes na extração e tratamento de subtítulo e autoria em 1998 e 2000 (respectivamente); conferindo notícias disponíveis entre 1997 a 2000Rafael, Cíntia
10/06/2022ESP - ajustes na extração e tratamento das tags autoria, data e local em 1998Rafael, Cíntia
06/06/2022ESP - ajustes na extração e tratamento das tags autoria, data e parágrafo em 1998Rafael, Cíntia
03/06/2022ESP - início da conferência por ano: 1998; início da extração de autoria; reajustes na extração e tratamentos das tags título, subtítulo e dataRafael, Cíntia
31/05/2022ESP - ajustes gerais nas funções do ESP, sem ano específicoRafael, Cíntia
31/05/2022FSP - ajustes finais na coleta da FSP de 1994 à 2022Rafael, Cíntia
30/05/2022FSP - reajustes no tratamento e extração das tags autoria, local, título e tags de 2019 à 2022Rafael, Cíntia
27/05/2022FSP - reajustes no tratamento e extração das tags autoria e local em 2019Rafael, Cíntia
26/05/2022FSP - ajuste de erro na extração de dados de 2018 à 2022; tratamento das tags autoria, local, link e categoria em 2018 e 2019Rafael, Cíntia
12/05/2022FSP - readequação da extração e do tratamento das tags autoria, subtitulo, categoria e link em 2017, 2018 e 2019Rafael, Cíntia
10/05/2022FSP - readequação do tratamentos das tags data atualizado, horario atualizado, local e autoria em 2017Rafael, Cíntia
03/05/2022GPOV - Revisão do scrpit e arrumação de problemas na coletaRafael, Vitório
29/03/2022GPOV - Revisão e documentação das funções de coleta e primeira coleta integralRafael, Vitório
22/03/2022GPOV - Início da coleta completaRafael, Vitório
22/03/2022GPOV - resolução de problema de página não encontradaRafael, Vitório
22/03/2022FSP - início da revisão de 2000Rafael, Treyce
11/03/2022FSP - continuação da readequação do período de 1998 à 1999Rafael, Cíntia
10/03/2022FSP - readequação do período de 1998 à 1999Rafael, Cintia
09/03/2022FSP - revisão e readequação do período de 1997, 1998 e 1999Rafael, Cintia
08/03/2022FSP - revisão do período de 1994 à fevereiro de 1997Rafael, Cintia
07/03/2022FSP - revisão do período de 2015 à 2022 concluída; início da revisão do período de 1994 à 2014Rafael, Cintia
04/03/2022FSP - readequação na extração de autoria e local e tratamento das tags nos anos de 2013 e 2014; otimização da função 1 para os anos de 2015 a 2019Rafael, Cintia
03/03/2022FSP - acréscimos na extração de autoria e local entre 2011 e 2012; ajuste nas coletas de 2013 e 2014Rafael, Cintia
25/02/2022VLR - verificação da coleta realizada (problema na inserção no banco)Rafael, Júlia
25/02/2022FSP - ajustes na extração da data, local e autoria de 2008 a 2012Rafael, Cintia
24/02/2022VLR - ajustes na visualização das imagens e no template HTMLRafael, Júlia
24/02/2022FSP - readequação da extração de autoria no ano de 2004, 2006 e 2007; tratamento na extração de data e condições de título em 2007; avançando na extração de 2008Rafael, Cintia
23/02/2022FSP - ajustes no tratamento de autoria e local no ano de 2004; criação de nova função para extração de dados em 2005Rafael, Cintia
22/02/2022VLR - resolução do problema de extração das imagensRafael, Júlia
22/02/2022FSP - tratamento na extração das tags data, autoria e local nos anos 2002-2004; readequação na função origem_arquivosRafael, Cintia
21/02/2022ajuste na estrutura do template HTMLRafael, Júlia
21/02/2022ajustes na estrutura da coleta da Carta Capital, El País, BBC e Gazeta do PovoRafael, Júlia
21/02/2022VLR - finalização da estrutura da coletaRafael, Júlia
21/02/2022FSP - readequação na extração de título, data, autoria e local nos anos 2002-2004Rafael, Cintia
18/02/2022VLR - coleta das imagens, ajuste no banco json e tratamento de algumas tags (autoria e parágrafos)Rafael, Júlia
18/02/2022FSP - ajustes nas extrações de autoria; criação de nova função para extração de notícias de 1998-1999; extração de tags até 2003Rafael, Cintia
17/02/2022VLR - adicionando noticias no bd json e começando a coleta imagensRafael, Júlia
17/02/2022FSP - ajuste de erros na limpeza de parágrafos e extração de autoria nas notícias de 1994Rafael, Cintia
16/02/2022VLR - extração de todas as informações e início da extração das imagensRafael, Júlia
16/02/2022FSP - ajustes na extração de notícias de 1994; extração de título, data, parágrafos e autoria na segunda funçãoRafael, Cíntia
15/02/2022VLR - início da extração das informaçõesRafael, Júlia
15/02/2022FSP - inserção da extração de data e parágrafos em uma segunda função criada; testando variações do código a fim de encontrar o erro ao extrair notícias de 1994 a 2014Rafael, Cíntia
14/02/2022GP - finalização da extração dos dadosRafael, Júlia
14/02/2022FSP - testes na extração de notícias nos períodos de 1994 e 2008 até 2014; anotações de erros no READMERafael, Cíntia
11/02/2022FSP - readequação na extração de tags de origem, data, categorias e paragrafos; extração da tag de autoria; início da inserção no banco de dados de 2015 até 2022Rafael, Cíntia
10/02/2022GP - continuação da estruturação da coletaRafael, Júlia
10/02/2022BBC e El País - ajustes nos templates json e HTML e testes de coleta; inserção no banco e geração dos HTMLsRafael, Júlia
10/02/2022FSP - extração de datas, tags e parágrafos das notícias de 2019 a 2022; anotações no README; mapeamento dos problemas na extração de 2018Rafael, Cíntia
09/02/2022BBC - início da inserção no banco; geração dos HTMLs; problema na inserção dos parágrafosRafael, Júlia
09/02/2022El País - início da inserção no banco; geração dos HTMLsRafael, Júlia
09/02/2022Carta Capital - continuação da inserção no banco; geração dos HTMLsRafael, Júlia
09/02/2022FSP - início da extração de dados do ano de 2020Rafael, Cíntia
08/02/2022El País - continuidade da extração de dados; início da inserção dos dados no bancoRafael, Júlia
08/02/2022ESP - readequação da função que acessa as páginas das notícias; inserção de outras formas de extração de parágrafosRafael, Cíntia
07/02/2022El País - início da coletaRafael, Júlia
07/02/2022ESP - extração de título, datas e parágrafos dos anos de 1997 à 2001; readequação da função que acessa a páginaRafael, Cíntia
04/02/2022BBC - início da inserção no banco e geração de HTMLRafael, Júlia
04/02/2022Carta Capital - início da inserção no banco e geração de HTMLRafael, Júlia
04/02/2022ESP - criação de um README_ESP para informações da coleta do ESP; criação de condição para atribuir subtítulos grandes à parágrafos; readequação na extração da DATA/META; extração até o ano de 2001Rafael, Cíntia
03/02/2022BBC - finalização da identificação das tags; coleta em andamentoRafael, Júlia
03/02/2022ESP - readequação na extração da categoria e do subtítulo; documentação de exceções no README; criação de condição para links que não são acessados; criação de condição para ver parágrafos não coletados; extração até o ano de 2004Rafael, Cíntia
02/02/2022BBC - início da coleta e identificação das tagsRafael, Júlia
02/02/2022Carta Capital - extraindo informações dos parágrafos e das tagsRafael, Júlia
02/02/2022ESP - ajustando erros na extração dos parágrafos e categoria; extração completa dos HTMLs de 2018 até 2022; apontamento de exceções no READMERafael, Cíntia
01/02/2022Carta Capital - readequação da coleta e extração pela tag metaRafael, Júlia
01/02/2022ESP - ajustando erros na extração da data, tags e parágrafos dos HTMLs de 2022; e extração completa dos HTMLs do ano de 2021Rafael, Cíntia
31/01/2022Carta Capital - início da readequação do script de coleta ao novo site da Carta CapitalRafael, Júlia
31/01/2022ESP - ajustando erros na extração da categoria e extração das datas e horários de atualização dos HTMLs do ano de 2022Rafael, Cíntia
28/01/2022ESP - avanço na extração das informações dos HTMLs do ano de 2022Rafael, Cíntia
27/01/2022ESP - iniciando coleta das notícias das páginas antigasRafael, Cíntia
05/01/2022Carta Capital - ajustando coleta das páginas antigasRafael, Júlia
16/12/2021Carta Capital - ajustando template htmlRafael, Júlia
15/12/2021Carta Capital - começando coleta das notícias das páginas antigasRafael, Júlia
14/12/2021Carta Capital - começando coleta das páginas antigasRafael, Júlia
13/12/2021Carta Capital - inserindo dir_local e ajustando HTMLRafael, Júlia
09/12/2021Carta Capital - termino do tratamento dos paragrafosRafael, Júlia
07/12/2021Carta Capital - tratando paragrafosRafael, Júlia
06/12/2021Carta Capital - inserção dados no db.json e tratando datasRafael, Júlia
02/12/2021Carta Capital - extração de tags, paragrafos e subtituloRafael, Júlia
23/11/2021Gazeta do povo - extração do conteúdo das notíciasRafael, Júlia, Vitório
09/11/2021Resolvendo problema de encodeRafael, Júlia, Vitório
06/10/2021Gazeta do Povo - coleta dos links das notícias e início da extração do conteúdo-
06/10/2021Conversa inicial com João Ferreira (NEPPS) sobre criação de material de utilização do Recoll-
29/09/2021Gazeta do Povo - Estruturação inicial do script de coleta
29/09/2021Carta Capital - coleta pag dinamica com selenium, parseamento da pag com bs e inicio da montagem do banco de dados
19/08/2021Criação do ambiente virtual conda (finalizado)
09/08/2021Término da normalização das variáveis e funções do projeto; Scripts para tratar html da fsp estão em funcionamento
02/08/2021Finalização da normalização e tratamento dos erros
27/07/2021Lidando com erros no tratamento das notícias
21/07/2021Continuação da normalização de nomes de variáveis e funções
20/07/2021Normalização de nomes de variáveis e funções
19/07/2021Normalização de nomes de variáveis e funções
13/07/2021Início da estruturação do fluxograma e revisão do código de tratamento atual
12/07/2021Revisão do projeto - problema no momento de limpeza dos arquivos