Wednesday, November 19, 2025

Ética e Responsabilidade na Ciência de Dados

Em 11 de junho de 2025, tive a oportunidade de compartilhar na Trilha de Data Science do TDC Florianópolis 2025, reflexões sobre Ética e Responsabilidade na Ciência de Dados.

Agora, registro aqui alguns pontos principais da minha apresentação...


Quando os Dados Enganam

Ética e Responsabilidade na Ciênica de Dados



Introdução


Não há como negar: os dados estão em tudo, moldando decisões importantes e impactando nossas vidas. Eles carregam um poder transformador - e muitas vezes, perigoso. Você já parou para pensar o que acontece quando os dados enganam?

Nesta apresentação, explorei o ciclo de vida dos dados para entender como a ética deve permear cada uma de suas etapas.  A LGPD dá o tom, mas, como Cientistas de Dados, o que podemos e devemos fazer para garantir a integraidade dos dados e das informações, das histórias que eles contam?


Vamos começar com uma provocação:

"Se você torturar os dados por tempo suficiente, eles confessarão qualquer coisa."


Esta frase, de Ronald Coase, economista britânico e Nobel de Economia (1991), ilustra bem o poder, e o perigo de manipular dados para ququer fim desejado. 

Vivemos na era dos dados. Eles estão por toda parte - nos aplicativos que usamos, nas decisões que nos afetam, nas políticas públicas e nas estratégias empresariais.

Mas... e se eles, os dados, estiverem errados?

Ou pior: e se os dados forem usados de forma a distorcer a realidade?


O objetivo desta postagem, é refletir sobre o papel da ética na ciência de dados, entender como decisões aparentemente técnicas podem ter impactos sociais profundos, e talvez o mais importante: o que pode ser feito para garantir que os dados sirvam ao bem comum.


Um pouco de história...


Antes de entrar no tema efetivamente, gostaria de compartilhar como me interessei ética e dados.

Em 2024, participei de um Datathon do Women in Data Science sobre Equity in Healthcare. O desafio era criar modelos preditivos para estimar o tempo até o diagnóstico de câncer metastático em pacientes com câncer de mama. Ao analisar o dataset, percebi que variáveis importantes, como o IMC (Índice de Massa Corporal), tinham muitos valores ausentes. Tentei várias técnicas de imputação, mas, devido ao perfil majoritário dos pacientes (brancos), o viés persistia. Esse desafio me fez refletir sobre como tratar dados de forma ética e responsável.

No meu dia a dia, também vejo como a forma de apresentar dados pode mudar percepções. Por exemplo, ao medir o tempo médio de resposta do meu time a requests, a média aritmética era distorcida por outliers. Ao usar a mediana e gráficos boxplot, o desempenho real ficou mais claro.

Veja um exemplo:



E, finalmente, não posso deixar de citar o livro "Como mentir com estatística". Não vou entrar em muitos detalhes neste ponto, pois já fiz uma postagem dedicada ao livro aqui - leiam esse post, e vocês entenderão.


O Poder dos Dados


Dados são usados para, se não tudo, muita coisa atualmente: eles são usados para aprovar empréstimos, selecionar candidatos, prever doenças, definir políticas públicas.

E a crença comum é que dados são "objetivos". 

Odeio ser a portadora de más notícias, mas os Dados NÃO são neutros - eles carregam vieses de quem os coleta, interpreta e aplica. Eles refletem escolhas humanas e, por isso, precisam ser tratados com responsabilidade.


Um teste..


Durante a apresentação no TDC, eu fiz um teste com quem estava presente. Usando o SLIDO, perguntei:

Você prefere trabalhar presencialmente ou remotamente?
Foi um momento divertido, e as respostas muito esclarecedoras - mais pelos "buracos" e dúvidas que elas traziam, do que pelas respostas em si...

Estou falando do Viés da Coleta. Será que a amostra de respostas que eu recebi representava todos os profissionais de tecnologia do Brasil? Do TDC Florianópolis?

O que influencia as respostas:
- Quem está presente no evento? Quem não está?
- Quem respondeu foram mais os participantes do digital/online, ou de participantes presenciais?
- Qual o perfil socioeconômico? 
- Eram todos de Santa Catarina ou tinha pessoas de outros Estados do Brasil? Ou de fora do Brasil?

Quantos pontos abertos!

A Coleta de Dados é o primeiro ponto onde o viés pode surgir - e muitas vezes, esse ponto passa desapercebido.


Outra consideração importante:

Correlação não é Causalidade


Dados podem mostrar padrões - mas interpretar esses padrões exige cuidado, contexto, pensamento crítico e responsabilidade.

Exemplos de correlações espúrias (como este exemplo do site Spurious Correlations) ilustram como relações aparentemente significativas podem ser apenas coincidências.




Há vários outros exemplos de quando os dados enganam, como:
Esses casos mostram que A manipulação de dados pode ser sutil - e extremamente perigosa!


Ética na Ciência de Dados


A ética não é um extra na Ciência de Dados: ela é um requisito fundamental!

Fundamentos de Ética em dados, como em um Manifesto Ético do Cientista de Dados:
  • Justiça: evitar discriminação e viés algoritmico.
  • Transparência: tomar decisões compreensíveis e auditáveis.
  • Responsabilidade: assumir as consequências do uso de dados.
  • Privacidade: respeitar os direitos dos indivíduos sobre seus dados.

No Brasil, a LGPD (Lei Geral de Proteção de Dados), traz princípios fundamentais para os dados, como:
  1. Finalidade
  2. Adequação
  3. Necessidade
  4. Livre Acesso
  5. Qualidade dos Dados
  6. Transparência
  7. Seguraça
  8. Prevenção
  9. Não discriminação
  10. Responsaiblização de contas.

Organizações internacionais reforçam esses pilares, como foco em IA Responsável:

  • OCDE: recomenda IA que seja robusta, segura, justa, explicável e centrada no ser humano.
  • UNESCO: defende IA que respeite direitos humanos, diversidade cultural e sustentabilidade.
  • AI Act (União Européia): propõe classificação de riscos e obrigações éticas conforme o impacto da IA.


Como aplicar isso na prática?


Questione! Por exemplo, pergunte "Por que estamos coletando esse dado?""

Documente decisões e premissas do modelo.

Use ferramentas de auditoria e explicabilidade (XAI).

Crie comitês de ética em dados dentro das organizações.

Promova diversidade nas equipes de ciência de dados.

A ética em dados não é apenas uma escolah técnica: é uma escolha civilizatória. É o que garante que a tecnologia sirva às pessoas, e não o contrário.

 

Até aqui, falei muito sobre a ética na coleta dos dados. Mas a ética deve estar presente em todo o ciclo de vida dos dados:



O papel do Cientista de Dados


Então, qual o nosso papel, como cientistas de dados nisso?

Ser um bom cientista de dados é, acima de tudo, ser um profissional ético.

E, indo além para outros profissionais de dados...


Afinal, Ética não é só sobre o que fazemos com os dados, mas é também sobre como os tratamos em cada etapa do caminho.


Para refletir

  • Você já enfrentou um dilema ético em projetos de dados?
  • Como você / sua empresa lida com privacidade e viés?
  • O que você acredita que falta para termos uma cultura mais ética em dados?


Concluindo...

Os dados têm poder, e como poder, vem responsabilidade.

Ética é o que transofrma tecnologia em progresso real.

Precisamos de profissionais que não apenas dominem técnicas, mas que também saibam fazer as perguntas certas, com pensamento crítico.

Com grandes dados, vêm grandes responsabilidades.


Vamos juntos construir uma cultura de dados mais ética, transparente e inclusiva?

Deixe seu comentário, compartilhe suas experiências, e vamos continuar essa conversa!


#PensamentoCrítico #DataLiteracy #DataScience #CriticalThinking #DataEthics #TDC2025

No comments:

Post a Comment