Skip to main content

Documentação NewsCloud

Questões da coleta - autoria nem sempre aparece na página web, mas pode estar presente no código. Contudo, o formato do nome se apresenta como no exemplo: "/autor/cmgutierrez/".

Questões da coleta - Se atentar com os horários dos jornais peruanos pois apresentam fuso -5.

O nome do autor não é necessariamente de quem escreveu a notícia, pode ser quem publicou ela no site.

Elementos do Banco de Dados

VariáveisTipo de VariávelDescriçãoExemplos NewscloudExemplos GovLatinAmerica
tipo_dadostrDisponibilidade dos dadosAberto / FechadoAberto / Fechado
paisstrPaís referente ao dadoBrasilBrasil
origemstrNome da fonte dos dadosEstadãoMinistério da Educação
siglastrJunção do País com a Origem (Abreviado)BRA-ESTADAO
categorialistCategoria dos dados, subdivisão para o bancoPolítica , EconomiaTrabalho, Emprego e Previdência
autorialistQuem é o autor dos dadosAutor da NotíciasAutor dos documentos
titulostringTítulo dos dadosTítulo da NotíciaTítulo do artigo
subtitulostringSubtítulo do artigoSubtítulo da NotíciaSubtítulo do artigo
datadatetimeData de publicaçãodd/mm/aaaadd/mm/aaaa
horariostrHorário de publicaçãohh:mmhh:mm
datetimedatetimeData e Horário de publicaçãodd/mm/yyyy hh:mmdd/mm/yyyy hh:mm
data_atualizadolistlistData de Atualizaçãodd/mm/aaaa
horario_atualizadostrHorário de Atualizaçãohh:mmhh:mm
linkstrURLs que devem ser coletados'https:...''https:...'
link_archivestr
data_archivelist
horario_archivelist
localstr
tagslistTags de identificação dos dados-"Economia popular e solidária"
paragrafoslistCorpo do textoParágrafos das notíciasParágrafos dos artigos
nome_arquivostr
imagensstr
dir_bdstrDiretório do Banco de Dados
dir_arquivostr
codigo_bdstrCaminho do banco de dadosbd/002/010/001bd/001/02/001
nome_bd_jsonstrNome do documentoBD_JORNAL_CHILE_LA_NACION.json
env_dir_bdstrCódigo do banco de dados que será usado na variável de ambienteBD_JORNAL_BOLIVIA_ELDEBER
extra_01strCampo extra para informações que não são abrangidas nos outros campos do arquivo--
extra_02strCampo extra para informações que não são abrangidas nos outros campos do arquivo--
extra_03strCampo extra para informações que não são abrangidas nos outros campos do arquivo--

Variáveis

VariávelSignificadoExemplo
env_dir_bdAponta para uma variável de ambiente que leva para o diretório raizA variável de ambiente leva para o diretório local/raiz BD_JORNAL_UNESP
env_dir_jsonDiretório geral dos arquivos jsonenv_dir_bd + /json
nome_bd_jsonNome do arquivo jsonenv_dir_bd + data
dir_jsonCaminho completo do arquivo jsonenv_dir_json + env_dir_bd + data.json

Tabela Modelo

ElementoSignificadoTipoExemplo
origem-str-
sigla-str-
classificado-list-
categoria-list-
País-str-
autoria-list-
titulo-str-
subtitulo-str-
data-str-
horario-str-
data_atualizado-list-
horario_atualizado-list-
link_archive-str-
data_archive-str-
horario_archive-str-
local-list-
tags-list-
paragrafos-list-
nome_arquivo-str-
imagens-list-
dir_bd-str-
dir_arquivo-str-
codigo_bd-str-
extra_01---
extra_02---
extra_03---

Indexação de Dados

Os htmls gerados podem ser pesquisados através do recoll.

Índices externos

Para gerar os índices externos é necessário indicarmos a pasta em que se encontram os dados (htmls ou pdfs) e a pasta na qual está a indexação