Descrição do dataset
Este dataset contém texto com conteúdo tóxico e discurso de ódio.
Um dataset de linhas de discussão publicadas em um imageboard anônimo brasileiro, um fórum de discussão similar ao 4chan. Esse dataset inclui 158.280 postagens de usuários distribuídas entre 4.539 tópicos, que foram publicados entre 18 de dezembro 2016 e 19 de janeiro 2017. Os dados foram coletados por meio de um web scraper desenvolvido, que reuniu conteúdo textual e data de publicação das postagens. As imagens não foram coletadas devido a possibilidade de conteúdo ilegal. Os dados foram utilizados na dissertação de mestrado "Análise das apropriações do anonimato nas subculturas dos imageboards".
Estrutura de dados
O dataset está no formato JSON, estruturado conforme o exemplo abaixo:
[
{
"createdAt": "2016-12-18T03:31:25.000Z",
"text": "A primeira resposta desse parênquima paliçádico deverá ser a mais quotado da história.",
"answers": [
{
"createdAt": "2016-12-18T03:31:43.000Z",
"text": "Não."
},
{
"createdAt": "2016-12-18T03:32:30.000Z",
"text": "Não."
},
{
"createdAt": "2016-12-18T03:32:44.000Z",
"text": ">>19678283"
},
]
},
{
"createdAt": "2016-12-19T02:52:28.000Z",
"text": "WEBM/MP4 THREAD!",
"answers": [
{
"createdAt": "2016-12-19T03:08:26.000Z",
"text": ">>19690400\nPerdi!"
},
{
"createdAt": "2016-12-19T03:08:29.000Z",
"text": ">>19690293\nAi meu Deus."
},
{
"createdAt": "2016-12-19T03:09:25.000Z",
"text": ">>19690421"
}
]
}
]
Solicitar acesso
O acesso a este dataset pode ser solicitado através do link na plataforma Zenodo.