Documentação NewsCloud
Questões da coleta - autoria nem sempre aparece na página web, mas pode estar presente no código. Contudo, o formato do nome se apresenta como no exemplo: "/autor/cmgutierrez/".
Questões da coleta - Se atentar com os horários dos jornais peruanos pois apresentam fuso -5.
O nome do autor não é necessariamente de quem escreveu a notícia, pode ser quem publicou ela no site.
Elementos do Banco de Dados
| Variáveis | Tipo de Variável | Descrição | Exemplos Newscloud | Exemplos GovLatinAmerica | 
|---|---|---|---|---|
| tipo_dado | list | Disponibilidade dos dados | Aberto / Fechado | Aberto / Fechado | 
| pais | str | País referente ao dado | Brasil | Brasil | 
| origem | list | Nome da fonte dos dados | Estadão | Ministério da Educação | 
| sigla | str | Junção do País com a Origem (Abreviado) | BRA-ESTADAO | |
| categoria | list | Categoria dos dados, subdivisão para o banco | Política , Economia | Trabalho, Emprego e Previdência | 
| autoria | list | Quem é o autor dos dados | Autor da Notícias | Autor dos documentos | 
| titulo | str | Título dos dados | Título da Notícia | Título do artigo | 
| subtitulo | str | Subtítulo do artigo | Subtítulo da Notícia | Subtítulo do artigo | 
| data | str | Data de publicação | dd/mm/aaaa | dd/mm/aaaa | 
| horario | str | Horário de publicação | hh:mm | hh:mm | 
| datetime | datetime | Data e Horário de publicação | dd/mm/yyyy hh:mm | dd/mm/yyyy hh:mm | 
| data_atualizado | list | list | Data de Atualização | dd/mm/aaaa | 
| horario_atualizado | list | Horário de Atualização | hh:mm | hh:mm | 
| link | str | URLs que devem ser coletados | 'https:...' | 'https:...' | 
| link_archive | str | |||
| data_archive | list | |||
| horario_archive | list | |||
| local | list | |||
| tags | list | Tags de identificação dos dados | - | "Economia popular e solidária" | 
| paragrafos | list | Corpo do texto | Parágrafos das notícias | Parágrafos dos artigos | 
| nome_arquivo | str | |||
| imagens | list | |||
| dir_bd | list | Diretório do Banco de Dados | ||
| dir_arquivo | list | |||
| codigo_bd | str | Caminho do banco de dados | bd/002/010/001 | bd/001/02/001 | 
| nome_bd_json | str | Nome do documento | BD_JORNAL_CHILE_LA_NACION.json | |
| env_dir_bd | str | Código do banco de dados que será usado na variável de ambiente | BD_JORNAL_BOLIVIA_ELDEBER | |
| extra_01 | str | Campo extra para informações que não são abrangidas nos outros campos do arquivo | - | - | 
| extra_02 | str | Campo extra para informações que não são abrangidas nos outros campos do arquivo | - | - | 
| extra_03 | str | Campo extra para informações que não são abrangidas nos outros campos do arquivo | - | - | 
Variáveis
| Variável | Significado | Exemplo | 
|---|---|---|
| env_dir_bd | Aponta para uma variável de ambiente que leva para o diretório raiz | A variável de ambiente leva para o diretório local/raiz BD_JORNAL_UNESP | 
| env_dir_json | Diretório geral dos arquivos json | env_dir_bd+/json | 
| nome_bd_json | Nome do arquivo json | env_dir_bd+data | 
| dir_json | Caminho completo do arquivo json | env_dir_json+env_dir_bd+data.json | 
Tabela Modelo
| Elemento | Significado | Tipo | Exemplo | 
|---|---|---|---|
| origem | - | str | - | 
| sigla | - | str | - | 
| classificado | - | list | - | 
| categoria | - | list | - | 
| País | - | str | - | 
| autoria | - | list | - | 
| titulo | - | str | - | 
| subtitulo | - | str | - | 
| data | - | str | - | 
| horario | - | str | - | 
| data_atualizado | - | list | - | 
| horario_atualizado | - | list | - | 
| link_archive | - | str | - | 
| data_archive | - | str | - | 
| horario_archive | - | str | - | 
| local | - | list | - | 
| tags | - | list | - | 
| paragrafos | - | list | - | 
| nome_arquivo | - | str | - | 
| imagens | - | list | - | 
| dir_bd | - | str | - | 
| dir_arquivo | - | str | - | 
| codigo_bd | - | str | - | 
| extra_01 | - | - | - | 
| extra_02 | - | - | - | 
| extra_03 | - | - | - | 
Indexação de Dados
Os htmls gerados podem ser pesquisados através do recoll.
Índices externos
Para gerar os índices externos é necessário indicarmos a pasta em que se encontram os dados (htmls ou pdfs) e a pasta na qual está a indexação