Existe um artefato em praticamente toda organização com mais de 200 funcionários: uma planilha chamada algo como “Inventário de Sistemas — Dados Pessoais — v3_FINAL_revisado.xlsx”.
Ela foi criada durante o projeto de adequação à LGPD. Tem abas com nomes de sistemas, tipos de dados, bases legais. Tem uma aba de responsáveis. A última atualização foi há 14 meses.
E ela não reflete mais a realidade da organização.
O problema não é a planilha — é o modelo mental
O inventário manual de dados parte de uma premissa que parece razoável: se mapearmos os sistemas que temos, sabemos onde os dados estão.
O problema é que dados não ficam nos sistemas. Dados fluem.
Um relatório é exportado do CRM e salvo no OneDrive de um gerente. Uma planilha com dados de RH é anexada em um e-mail para um consultor externo. Um desenvolvedor faz dump de produção para testar uma query. Uma apresentação para o conselho contém tabelas com dados financeiros que nunca deveriam ter saído do ERP.
Cada um desses movimentos cria uma cópia de dados fora do sistema mapeado. E nenhuma planilha de inventário, por mais bem mantida, consegue acompanhar esse fluxo em tempo real.
Os 4 tipos de dados que sempre escapam do inventário manual
1. Dados em colaboração e produtividade
SharePoint, Teams, OneDrive, Google Drive, Slack, Notion. Esses ambientes crescem organicamente — pastas criadas por usuários, arquivos compartilhados em projetos, documentos editados colaborativamente.
O volume de dados sensíveis nessas plataformas costuma surpreender: CPFs em planilhas de RH, contratos com clientes em pastas de vendas, dados financeiros em apresentações de board. Nenhum sistema de inventário manual cobre isso com a granularidade necessária.
2. Ambientes de desenvolvimento e teste
Desenvolvedores frequentemente usam dados reais de produção em ambientes de dev, staging e QA. É uma prática reconhecidamente problemática, mas comum: é mais fácil usar um dump real do que criar dados sintéticos realistas.
Esses ambientes raramente aparecem nos inventários de compliance — afinal, “não são produção”. Mas contêm os mesmos dados sensíveis, com controles muito mais fracos.
3. Dados gerados por IA e automações
Relatórios gerados por automações, outputs de modelos de ML, arquivos criados por scripts de integração. Esses dados existem mas não têm “dono” claro no inventário.
Com a expansão de ferramentas de AI generativa, esse problema se intensifica: o Copilot pode gerar um documento que sintetiza informações de múltiplas fontes — e esse documento existe como dado novo, com sensibilidade herdada das fontes, fora de qualquer mapeamento.
4. Legados e arquivos históricos
Servidor de arquivos de 2011. Pastas de projetos encerrados. Backups parciais que “não usamos mais mas guardamos por precaução”. Dados de ex-funcionários que nunca foram expurgados.
Esses dados não aparecem nos projetos de mapeamento porque ninguém quer assumir a responsabilidade de decidir o que fazer com eles. Então ficam — com dados pessoais reais, sem controles atualizados.
Por que o inventário envelhece em dias, não meses
Imagine uma organização com 1.000 funcionários. Em um dia típico:
- 15 novos arquivos com dados sensíveis são salvos no SharePoint por diferentes usuários
- 3 integrações entre sistemas criam novos repositórios de dados
- 2 desenvolvedores fazem dumps de produção para debug
- 1 novo SaaS é adotado por uma área sem passagem pelo processo de TI (Shadow IT)
- 8 links de compartilhamento externos são criados em documentos com dados de clientes
Em 30 dias, isso equivale a centenas de novos pontos de dado fora do inventário. Um mapeamento feito há 6 meses pode estar desatualizado em 30-40% do ambiente real.
O gap invisível: A maioria das organizações acredita que seu inventário cobre “os principais sistemas”. O que a descoberta automatizada revela é que os dados frequentemente estão fora dos principais sistemas — espalhados em ambientes que ninguém considerou prioritários.
O ciclo vicioso da opacidade
Quando a descoberta falha, toda a cadeia de segurança de dados sofre:
Sem descoberta
→ Sem classificação (você não pode classificar o que não sabe que existe)
→ Sem controle de acesso adequado (você não pode controlar o que não foi classificado)
→ Sem detecção comportamental (você não pode detectar acesso anômalo sem saber o que é sensível)
→ Sem resposta efetiva a incidentes (você não sabe o que foi afetado)
→ Sem compliance demonstrável (você não tem evidência técnica)
O Data Discovery não é apenas um dos sete domínios do DSPM — é o pré-requisito para todos os outros. Por isso o assessment DSPM aplica um peso especial ao domínio DD: se a descoberta falha, o score total é limitado, independente do desempenho nos outros domínios.
O que a descoberta automatizada muda
A descoberta automatizada não é uma versão digital da planilha. É um modelo operacional diferente:
Contínuo vs. pontual Em vez de projetos de mapeamento anuais, a descoberta roda em tempo real — indexando novos arquivos, detectando novos repositórios, atualizando o inventário à medida que dados são criados e movidos.
Orientado por conteúdo vs. por sistema Em vez de mapear onde os dados poderiam estar (sistemas declarados), a descoberta analisa o que está em cada repositório. Um arquivo chamado “proposta_cliente.pdf” pode conter CPFs ou não — só análise de conteúdo determina isso.
Cobertura de ambientes não estruturados Descoberta automatizada cobre SharePoint, OneDrive, Teams, S3, GCS, banco de dados, e-mail — os mesmos ambientes que o inventário manual ignora.
Evidência auditável Cada dado descoberto tem registro de localização, data de descoberta, classificação e histórico de acesso — evidência técnica que um documento de inventário não fornece.
Como avaliar se você precisa de descoberta automatizada agora
Cinco perguntas para fazer internamente:
1. Quantos repositórios de dados você tem? Se a resposta é “não sabemos ao certo”, a descoberta manual já falhou.
2. Em quanto tempo você localizaria todos os dados de um cliente específico? Se a resposta é “dias” ou “semanas”, você não tem capacidade de responder a um DSAR da LGPD ou a um incidente de forma adequada.
3. Você tem dados de produção em ambientes de desenvolvimento? Se a resposta é “provavelmente sim, mas não temos certeza”, é uma confirmação de descoberta inadequada.
4. Qual foi a última vez que o inventário foi atualizado? Se passou de 3 meses, ele já está materialmente desatualizado.
5. Você habilitou ou está considerando Microsoft 365 Copilot ou similar? Se sim, a descoberta de dados é pré-requisito — o Copilot consulta tudo que está acessível, e sem descoberta você não sabe o que isso inclui.
Por onde começar sem uma ferramenta enterprise
Nem toda organização está pronta para implantar um DSPM enterprise imediatamente. Mas é possível começar a construir visibilidade de forma progressiva:
Passo 1: Delimite o perímetro real Liste não apenas os sistemas “oficiais”, mas também: SharePoint, OneDrive, buckets cloud, servidores de arquivos legados, SaaS de terceiros com acesso a dados. A lista vai ser maior do que você imagina.
Passo 2: Priorize por risco Foque primeiro nos repositórios com maior probabilidade de dados de clientes, dados financeiros ou dados de saúde. Esses são os que criam exposição regulatória e de reputação.
Passo 3: Amostras manuais nos ambientes prioritários Antes de qualquer ferramenta, faça amostras em SharePoint e nos principais drives. Abra pastas aleatórias e veja o que há. A frequência de dados sensíveis fora de controle vai calibrar a urgência.
Passo 4: Defina critérios de classificação antes da automação Antes de automatizar a descoberta, defina o que você está procurando: quais padrões indicam PII, dados financeiros, dados de saúde. Isso acelera muito a implantação de uma ferramenta quando o momento chegar.
Passo 5: Avalie sua postura atual O assessment gratuito nesta página avalia seu domínio de Data Discovery e mostra onde estão os maiores gaps em relação ao padrão de mercado.
A descoberta manual de dados não é uma alternativa ao DSPM — é uma ilusão de controle que dura até o primeiro incidente ou a primeira auditoria regulatória real. A diferença entre saber onde seus dados estão e acreditar que sabe pode ser a diferença entre responder em horas e responder em semanas.
“Você não pode proteger o que não sabe que existe. E a maior parte dos dados de uma organização existe em lugares que ninguém mapeou conscientemente.”