Oi Carlos, muito interessante sua formação, motivação e seus projetos. Trabalhei recentemente num laboratório de Genética Quantitativa onde fazíamos forte uso do R e todo seu universo para análise de dados, juntamente com o IPython Notebook então acho que vamos falar a mesma língua!
Vejo diversos temas que podem te interessar no projeto Gastos Abertos dados seus interesses e vou tentar citar algumas idéias, mas não tome a lista como exaustiva, muito longe disso! Seria interessante que todos pudéssemos continuar a discutir essa lista, ampliando e já experimentando com os dados que possuímos para que os projetos práticos (infográficos interativos ou não, ferramentas, estudos mais acadêmicos, etc) saiam da teoria e comece assim um desenvolvimento de forma mais orgânica. Assim vejo também uma maior probabilidade de participação de outros voluntários no projeto. Mas vamos a lista de idéias!
-
Temos alguns dados de planejamento e execução orçamentária. Alguns desses dados já estão classificados num nível funcional (Educação, Saúde, Transporte, etc) ou regional (Distritos, Subprefeituras, etc). Seria interessante se conseguíssemos comparar de diferentes formas o que foi planejado e como foi executado de acordo com essas classificações. Por exemplo, existe uma difereça grande no planejamento de Educação por Distritos? Quanto de dinheiro vai pra cada Distrito na área de Saúde? Como cruzar isso com outros dados públicos (demografia, números de hospitais, escolas, distribuição demográfica, renda média, etc) pra compreender se a forma que o planejamento dos gastos está sendo feito de forma correta/eficiente? Existem pontos cegos, por exemplo, distritos com poucos hospitais públicos, alta mortalidade, alta taxa de nascimento, mas com pouco investimento em Saúde? Como podemos comparar o quanto esta planejado pra cada diferente distrito? Quem sabe uma ferramenta onde pudéssemos escolher pares de distritos/subprefeituras e visualizar comparações simples no que foi planejado pra cada (Sé possui 3.75 vezes mais investimento que Butantã em Lazer, 2.8 vezes mais em Transporte, X% mais dinheiro planejado total, Y% mais números de projetos). Depois seria interessante comparar não apenas o planejado mas a execução. Quão diferente é a eficiência na execução orçamentária por região ou área de atuação?
-
Possuímos uma grande base de dados (mais de 10.000!) com os contratos feitos com a Prefeitura de São Paulo no ano de 2014. Boa parte desses contratos possuem informações dentro deles que precisam ser mineradas, como por exemplo, kilos de banana, número de carros, gasolina ou kilometragem, quantidade de papel higiênico, etc Além disso existem informações de entidades como quem assinou o contrato, qual empresa ficou responsável, prazos de entrega. Boa parte dessas informações não estão em um formato amigável pra máquinas, então teríamos que utilizar diferentes técnicas de processamento de linguagem natural para extrair tais informações. Mas não precisamos focar em fazer um método 100% eficiente (o que seria impossível a princípio), mas se tivéssemos um método que realizasse uma organização prévia dessas informações para serem apresentadas a uma plataforma de crowdsourcing (por exemplo o PyBossa) onde usaríamos o trabalho de voluntários para ajudar no processo de extração de informações e correções de erros feitos pelos nossos algoritmos. Feito essas extrações podemos passar pra outros desafios interessantes: como visualizar os investimentos em um nível mais micro? (kilos de alimentos, kilos de frutas, kilos de fruta x, y ou z, litros de gasolina, kilometros em caros alugados, minutos de telefone, etc) Conseguimos usar técnica de clustering para agrupar os gastos/contratos em diferentes clusters? Como conseguimos extrair relações ocultas a partir desses dados (empresas que sempre participam dos processo licitatórios, empresas criadas por políticos ou com forte influência deles ou neles (dados de doações partidárias)? Fazendo uma breve excursão pelos contratos de forma manual já encontrei diversos sinais de alerta como empresas ligadas a líderes sindicais, diferentes empresas ligadas a mesma família, empresas de vereadores, padrão de empresas com altos valores de licitação e número de contratos mas com quase nada de informação disponível online (sites de uma página com logo animado “em construção” parecendo coisa da década de 90, sem informação alguma de telefone, endereço, etc).
Notei que minha idéia original era fazer uma lista, mas acho melhor tentarmos criá-la em conjunto a partir das idéias que descrevi acima ou idéias novas que forem surgindo aqui. Os dois ítens acima podem ser quebrados em diversos temas menores.