Robert Verhine: Os Limites do ENADE

Recebi  de Robert Verhine o texto abaixo, dando continuidade ao diálogo sobre a avaliação do ensino superior:
Confesso que estou adorando minha nova carreira como blogger. Gostei muito da resposta detalhada (e espirituosa) de Cláudio de Moura Castro e das colocações gentis e ponderadas de Renato Janine. Ainda que concorde com boa parte do argumento de Castro, não posso resistir à oportunidade de fazer mais uma provocação, discordando da posição de defesa do uso exclusivo (ou quase exclusivo) dos resultados do ENADE para avaliar cursos de educação superior (e, implicitamente, das instituições que os oferecem). Castro afirma que “Só Brasil tem uma prova desse tipo, aplicado em graduados. Portanto, podemos e devemos dispensar as medidas de processo”. Ele acrescenta o seguinte: “Se a prova é ainda imperfeita, vamos melhorá-la”, e, como um exemplo de como fazer isto, propõe a utilização da técnica de espiralização, atualmente empregada pelo SAEB, em que cada aluno completa apenas uma parte da prova.

Apresento alguns argumentos. Comecemos com o fato de que o Brasil é o único país que aplica exames padronizados a alunos de graduação para avaliar, em toda parte da nação, cursos de educação superior. Seria interessante saber se Castro tem refletido sobre o porquê dessa aplicação. É por que em outros países ninguém tem conhecimento dessa maneira de avaliar cursos de graduação? Ou é por que em outros países existe uma aversão geral ao uso de exames, em qualquer nível de ensino? Ou ainda é porque, diferentemente do caso brasileiro, em outros países não há recursos financeiros suficientes para cobrir os altos custos envolvidos? Acho que a maioria dos leitores concordaria que a resposta para cada uma das perguntas acima é, sem dúvida, “não”. Uma outra hipótese me parece ser mais sustentável. Talvez nenhum outro país tenha adotado um enfoque do tipo Provão/ENADE porque existe uma ampla concordância com  o argumento que fiz no meu ensaio anterior. Neste, apontei que: “Testes, a exemplo dos utilizados pelo ENADE ou pelo Provão, são limitados e capturam, no melhor dos casos, apenas uma porção daquilo que deve ser aprendido ou conhecido ao final de um curso de graduação”.

Tenho participado com regularidade em encontros internacionais no campo de educação comparada (a área de meus estudos de doutoramento). No decorrer do tempo, apresentei vários papers sobre a experiência brasileira com o Provão/ENADE. Aproveitei tais momentos para discutir com os acadêmicos presentes, oriundos de diversos países, as questões apresentadas no parágrafo anterior. Suas reações serviram para fortalecer minha posição a respeito das limitações inerentes à utilização de exames para medir resultados de cursos de graduação. Tais acadêmicos tendiam a enfatizar dois pontos centrais. Primeiro, eles argumentavam que a maioria das profissões relacionadas à educação superior não requer a acumulação e memorização de conhecimento testável. Pelo contrário, tais profissões exigem, principalmente, habilidades e competências que abrangem, entre outras coisas, localizar conhecimento quando for necessário e, mais importante ainda, a capacidade para adquirir novo conhecimento, através de processos de aprendizagem contínua. Tais habilidades e competências são dificilmente captadas através de exames padronizados, escritos (embora, é claro, o ENEM represente um avanço nesse sentido). Assim, os acadêmicos indicam que o uso de testes faz, talvez, algum sentido em áreas em que a absorção de conteúdos específicos é intensiva (como direito e contabilidade, por exemplo), mas, para a vasta maioria das profissões, testes simplesmente não captam a essência da formação que um curso de graduação procura desenvolver. São poucos os que acham que esse problema é solucionável apenas “melhorando” as provas.

O segundo argumento usado pelos acadêmicos é que, mesmo em áreas em que testar torna-se justificável, é impossível desenvolver um teste suficientemente detalhado que possa ser aplicado de forma padronizada em uma amostra (ou população) nacional ampla. Conforme mencionei em meu ensaio anterior, 40 questões (10 para formação geral e 30 referentes à formação específica) simplesmente não são suficientes. Para fazer justiça a uma área de formação, o teste teria que ser bem mais extenso. O exame da OAB, por exemplo, é realizado em etapas, envolvendo, pelo menos, dois momentos diferentes de aplicação das provas. Nos Estados Unidos, o USMLE (Medicina), o MBE (Direito) e  o CPAE (Contabilidade) são provas realizadas em múltiplas etapas, envolvendo mais do que um dia. Assim, para assegurar a validade dos resultados do ENADE, seria necessário aumentar significativamente o tempo do teste (que é atualmente de 4 horas), o que poderia introduzir um fator negativo que é o cansaço de quem está a ele se submetendo e, ainda, acrescentar em muito o custo global do processo de implementação.

Todos esses elementos me levam à sugestão feita por Castro referente à utilização da abordagem da espiralização no ENADE. O problema é que, no meu entender, essa abordagem só funciona quando as amostras são grandes. E é devido ao uso da espiralização (em conjunto com sua abordagem amostral) que o SAEB apenas pode revelar tendências para os estados, mas não pode fazer o mesmo para os municípios e, especialmente, não pode indicar tendências para cada escola individualmente. Como conseqüência disso, a Prova Brasil foi criada. No caso do ENADE, as populações testadas são frequentemente bem pequenas. O ENADE, não se pode deixar de lembrar, foi desenhado para medir o desempenho médio de cada curso de uma determinada área e  o número de estudantes envolvidos nos referidos cursos é, em muitos casos, bastante reduzido. Por exemplo, para o ENADE-2005, cursos tais como os de Matemática e de Química apresentaram média de menos de 30 alunos/curso. Assim, embora a sugestão de Castro seja criativa, a verdade é que a utilização da espiralização nas provas do ENADE não é, em termos gerais, tecnicamente viável.

Apesar das limitações inerentes ao modelo Provão/ENADE, sempre defendi o referido modelo, por três razões. Em primeiro lugar, considerando que a utilização de testes representa algo concreto e operacional, sua utilização tem ajudado a criar um clima favorável à avaliação da educação superior. Anteriormente ao Provão, embora a necessidade da avaliação da educação superior fosse amplamente reconhecida, sua implementação foi sempre impedida por aqueles que estavam contra ela, em nome da criação de um modelo “perfeito”. Atualmente, por causa da introdução do Provão em 1995, a avaliação da educação superior faz parte permanente do cenário nacional. Em segundo lugar, o exame é acompanhado por um questionário sócio-econômico que é preenchido pelos estudantes submetidos ao teste. As informações geradas pela aplicação desses questionários são de grande valor, vez que resultam em importantes informações sobre as características e opiniões dos estudantes da educação superior no Brasil. Sem os testes, tais questionários poderiam nunca ser preenchidos em uma escala ampla e, como conseqüência, nosso conhecimento sobre e nossa compreensão a respeito das características e opiniões do corpo discente nacional seria muito mais restrito do que a situação atual. Finalmente, eu acho que os testes, embora imperfeitos na apreensão de resultados, são, certamente, melhores do que nada. É melhor ter alguns resultados do que nenhum deles. Mas as limitações de tais resultados têm que ser conhecidas e, ademais, eles nunca deveriam ser tomados como a única medida de qualidade. É somente combinando-os com outros indicadores, inclusive os que tratam de insumos, frequentemente melhor mensuráveis através de visitas “in loco”, que podemos avaliar a “qualidade” de cursos de graduação e, por extensão, das instituições brasileiras de educação superior.

Bob Verhine – UFBA verhine@ufba.br

Jorge Balán: a competição internacional por talentos |Jorge Balán: international competition for talents

Os programas de pós-graduação em economia da Universidade Católica do Rio de Janeiro e da Fundação Getúlio Vargas vivem um paradoxo. Como os mestrados são muito bons, seus melhores alunos conseguem ser admitidos em programas de doutorado no exterior, e por isto os cursos formam poucos doutores; e, como formam poucos doutores, não recebem boas avaliações da CAPES. Que fazer?  Impedir que estes estudantes estudem fora do país? Para os que estudam fora e recebem convites e propostas de trabalho de universidades e empresas de outros países, processá-los para que voltem ou devolvam o dinheiro que o país investiu em sua educação? Piorar a qualidade dos mestrados, para que os estudantes façam seu doutorado por aqui?

Jorge Balán discute este tema em uma nova revista publicada nos Estados Unidos, a Primera Revista Latinoamericana de Libros, que permite acesso integral aos textos dos artigos. Observa ele que

“Resulta imposible, en la práctica, frenar la emigración de talentos con políticas restrictivas de la movilidad o el pago de reparaciones por los costos de la educación que han recibido. El intento de la Unión Soviética y de otros países socialistas de limitar la salida de talentos resultó en un enorme sufrimiento humano y en importantes distorsiones de la economía, llevando eventualmente a uno de los drenajes de capital humano mayores de la historia. En la actualidad, conviene recordarlo, rusos y europeos orientales contribuyen con un gran contingente de emigrantes calificados a Europa occidental. El reconocimiento por parte del gobierno chino de que no podía continuar con políticas restrictivas de los estudios en el exterior es igualmente ilustrativo. La movilidad internacional es un derecho y su regulación, dentro de ciertos límites, queda en manos de los gobiernos en los países receptores”.

Se é assim, então não há nada a fazer? Ao invés de tentar segurar os alentos, o que os países devem fazer é apostar nos benefícios que derivam da abertura internacional e da circulação de talentos. Como diz Balán, “el comportamiento migratorio de los talentosos se ha transformado a nivel global, hecho muy relevante para la elaboración e implementación de políticas de retorno.  La residencia doble o incluso múltiple, alimenta la migración circular de los talentosos. La residencia dejó para muchos de estar atada a una fuente de empleo, ya que los talentos tienen valores más portátiles y escogen residencia con otros criterios” . E, citando a Richard Florida:

“Los talentosos —la clase creativa por la que compiten empresas, comunidades y gobiernos— no responden exclusivamente a mejores salarios y beneficios, sino que son sumamente sensibles a la autonomía personal y a la calidad de vida que ofrecen la empresa y la comunidad local. De allí la importancia de la tolerancia al diferente —ellos lo son por naturaleza— y de la receptividad a la innovación en todos los órdenes de vida. Esto nos dice mucho, también, sobre cómo responderían los talentosos a las oportunidades de vinculación y eventual retorno que se abren con las políticas imaginadas por países en desarrollo”

Vale a pena ler o artigo na íntegra: Jorge Balán, La competencia internacional por los talentos, Primera Revista Latinoamericana de Libros, Octubre-Noviembre 2008.

Ainda as melhores universidades do mundo |Still the best universities in the world

Jacques Marcovitch foi conferir, e viu que eu tinha usado os dados de 2007, e não de 2008, na nota sobre o ranking do THES (era o que aparecia no site do THES). A  posição das quatro principais universidades latinoamericanas – USP, Unicamp, Universidade de Buenos Aires e Universidade Nacional do México  – de 2006 a 2008 é a  do quadro abaixo. A UNICAMP aparecia perto da USP em 2007, mas está fora da lista de 200 em 2008,  e a Universidade de Buenos Aires, que aparece em 2008, estava até então fora da lista das 200 mais.

Latin American Universities in the THES ranking

Estas enormes variações mostram que algo está errado – as universidades não mudam tanto de ano para ano. Marcovitch acredita que  possa haver um problema com a amostra, mas me parece que a principal explicação metodológica é que as diferenças entre as instituições devem ser pequenas, elas devem estar agrupadas em grandes blocos, mas se distanciam quando são ordenadas sequencialmente, perdendo a informação sobre as distâncias (um erro clássico de má transformação de diferentes níveis de medida).

Além disto, claro, estão os critérios utilizados, e os pesos que são dados a cada um dos fatores, que podem ser questionados. Não dá para tomar estes números a ferro e fogo, mas eles confirmam que mesmo as melhores universidades da região estão longe de participar do clube seleto das universidades de padrão internacional.

As melhores universidades do mundo|The best universities in the World

Saiu uma nova lista das melhores universidades do mundo, publicada pelo The Times Higher Education Supplement. Como sempre, Harvard University é a primeira, seguida de Oxford e Cambridge (of course). As 15 primeiras são todas dos Estados Unidos e Inglaterra, com a exceção da Universidade de McGill no Canadá. Da América Latina aparecem somente três: a Universidade Autônoma do México, na posição 74, e as  universidades de São Paulo e Campinas, nas posições 175 e 177.

Para este ordenamento, a revista pesquisou a opinião dos pares e empregadores, a proporção de estudantes por professor, o número de citações por professor, e a internacionalização do corpo docente e discente. Em uma escala de 0 a 100, a pontuação mais alta da UNICAMP , 78, é no número de estudantes por professor , e a mais baixa, 16, é na internacionalização do corpo discente. A nota mais alta da USP é na avaliação dos pares, 65, e a mais baixa, também na internacionalização do corpo discente, 14.

Segundo a revista, “despite the presence of South African, Brazilian and Mexican institutions in this table, the overall message of these rankings is that the sort of universities we list here, mainly large, general institutions, with a mingling of technology specialists, are a dauntingly expensive prospect for any country, let alone one in the developing world”. “apesar da presença de instituições da África do Sul, Brasil e México nesta lista, a mensagem mais geral deste ordenamento é que o tipo de universidades listadas aqui, grandes, gerais, com uma combinação de especialistas de diferentes tecnologias, é um prospecto muito caro para qualquer país, e sobretudo para o dos países em desenvolvimento”. Mas é claro que não é somente uma questão de dinheiro.

Qual é a validade deste ordenamento?  Se fosse um ranking oficial, de algum governo ou agência internacional, haveria muitas razões para questionar e criticar. Mas como é um trabalho jornalístico, ele vale como tal. Com suas limitações e possiveis tendenciosidades, esta lista nos diz coisas importantes, que só teremos a perder se não tomarmos em conta.

Verhine discorda de Castro e Castro discorda de Verhine

Recebi de Claudio de Moura Castro a seguinte resposta ao texto de Roberto Verhine sobre o “Conceito Preliminar de Curso”  do Ministério da Educação:

O novo Blog do Simon aparece com uma critica de Robert Verhine ao meu ensaio na revista Veja, sobre os novos critérios de avaliação do MEC. Respondo?

Claro que sim, pois se trata de um comentário educado, apoiado em argumentos técnicos e sem que vislumbremos filtros ideológicos colorindo as idéia.  Ademais, o tema é importante. Independentemente do lado para o qual possa pender a simpatia do leitor, a atenção que merece o assunto já é suficiente para justificar a troca de argumentos.

Em primeiro lugar há uma questão de agrimensura. Meu ensaio tem seu tamanho limitado pela página da revista. O de Verhine dispõe do latifúndio oferecido pelo Simon. Tive que comprimir todos os argumentos em menos de 700 palavras. Para comentar meu ensaio, ele usou quase o dobro das palavras.

Além da limitação de espaço, em uma revista para o grande público, os argumentos técnicos têm que ser simplificados. Por exemplo. Disse que “Subtraindo das notas dos formandos a nota dos calouros, captura-se o conhecimento que o curso ‘adicionou’ aos alunos”. Poderia haver falado na “distância entre a pontuação do curso e uma curva linear de regressão múltipla, ajustada pelo método dos mínimos quadrados”. Isso seria tecnicamente muito mais preciso, mas poucos leitores me acompanhariam. A simplificação que usei deixa clara a natureza do conceito, sem introduzir distorções de interpretação.

Mas vamos ao assunto. Os argumentos do meu ensaio caminham em quatro linhas.

i) O uso inapropriado de um índice composto

Índices compostos podem ser apropriados em certos casos e impróprios em outros. Nem sempre é boa idéia somar alhos com bugalhos.

O IDEB é um índice composto. Venho sistematicamente defendendo o seu uso. O IDH também e nada tenho contra ele.

Por que então a rebeldia contra o novo indicador do MEC? É simples, uma mensuração é uma resposta a uma necessidade de uso. O IDH permite comparar países ou cidades.  Agrupa renda, saúde e educação, fatores reconhecidos por medirem qualidade de vida. Em conjunto dão uma idéia melhor do conceito complexo que se está tentando medir.

Mas ao mesclar o que saem sabendo os graduados (ENADE) com a contribuição líquida do curso (IDD), estamos justamente obliterando diferenças que interessa conhecer. Voltando ao exemplo da Veja, um empregador gostaria de saber que o primeiro curso de farmácia  obteve 5 (quanto o graduado sabe) e 2 (quanto o curso adicionou ao conhecimento do aluno).

Contratar alguém do primeiro curso pode ser uma boa idéia, pois sabe mais. Contudo, como o segundo curso obteve 2 e 5, para um aluno modesto que deva escolher onde fazer seu vestibular, este último dá a ele maior perspectiva de crescimento pessoal.

Se o objetivo do MEC é apenas decidir inicialmente que cursos deixar correr soltos e quais colocar no “CTI”, bastaria o resultado na prova aos graduandos (ENADE). Se o escore é muito baixo, sinal de alarme: vamos ver o que está errado. Ainda no caso dos dois cursos citados, o segundo tem méritos, pois alavanca as carreiras pessoais dos alunos, apesar de que entram muito mal preparados. Já o ensino do primeiro curso é péssimo, pois recebe alunos bons e pouco oferece a eles. O que fazer com cada um? Essas são decisões críticas para o MEC: Punir um curso fraco na sala de aula, mas que recebe bons alunos? Punir um curso que faz um bom trabalho, mas recebe alunos fracos?  O índice que junta os dois indicadores oblitera deficiências muito diferentes.

ii) Tal como formulado, o índice introduz um viés a favor do ensino público

Em uma pesquisa em que Chico Soares e eu realizamos, foi possível medir com considerável precisão o valor adicionado.  As equações nos permitiram também concluir que da ordem de 80% da variância explicada (não poderia usar essa expressão na Veja!) se deveu à pontuação dos alunos ao entrarem no superior.

Como a vasta maioria dos cursos superiores públicos recebe os melhores alunos, somar à prova dos graduandos o resultado da prova aplicada aos calouros infla o resultado do ENADE para tais cursos. Se o curso ensina mal, mas recebe alunos bons, a medida introduz um viés que esconde a fragilidade da sua sala de aula, superestimando, ipso facto, a qualidade do curso. Por que o MEC estaria usando uma medida tão bizarra?

Em outro diapasão, somente cursos públicos têm recursos para manter todos ou quase todos os professores em tempo integral. Independentemente do que saem sabendo os alunos, os públicos ganham um bônus de pontos no escore final.

Igualmente, um curso privado que contrata profissionais atuantes no mercado, estará oferecendo um ensino melhor nas disciplinas aplicadas – comparado com as públicas. Não obstante, será penalizado na nota final.

Nesse particular, seria também o caso de examinar as provas do ENADE e verificar se não seriam excessivamente acadêmicas e distanciadas da prática das profissões correspondentes. Nunca fiz isso, mas alguém deveria fazer. Se isso acontece, seria outra instância de discriminação contra cursos que usam profissionais  em vez de acadêmicos. Note-se que, no país do Verhine, há muitos cursos profissionais que não contratam professores que não estejam atuando no mercado – quaisquer que sejam os seus diplomas.

iii) Ao tomar medidas de resultado e juntar a elas medidas de processo, o índice mescla meios com fins

Imaginemos engenheiros que precisam avaliar o desempenho no ar de um protótipo de avião que ainda não voou. Como não têm medidas de resultados, são obrigados a todos os malabarismos teóricos para prever como a aeronave se comportará após a decolagem.

Assim são as avaliações americanas. Se lá houvesse um Provão ou ENADE, poderiam jogar fora as dezenas de indicadores de processo que são obrigados a usar.  É sabido que são muito imperfeitos como preditores de desempenho. Mas como é o que existe, os americanos têm que usá-los. Só o Brasil tem uma prova desse tipo, aplicada em graduados. Portanto, podemos e devemos dispensar as medidas de processo.

Se aplicarmos uma prova para medir o que aprenderam os graduados, como chegaram lá se torna irrelevante. Se a prova ainda é imperfeita, vamos melhorá-la. Por exemplo, o SAEB usa uma prova com muitas questões. Tantas são que é preciso usar três alunos diferentes para completar a prova. Por que não fazer o mesmo no ENADE?

Naturalmente, se a nota dos graduados é baixa demais, nesse caso, vamos usar as variáveis de processo, para identificar onde pode estar o problema. Os meios ou os processos são variáveis de diagnóstico de disfunções. São eminentemente úteis para isso.

Voltando à metáfora do restaurante, se os clientes sofreram uma epidemia de salmonela, aí então, a saúde pública vai verificar se os pratos e a cozinha foram rigorosamente esterilizados. Mas o visitador do Michelin não se ocupa disso (exceto se ele próprio for vítima de desinteria).

iv) Não conhecemos bem a natureza dos indicadores usados

Não amadurecemos ainda uma boa interpretação dos resultados do valor adicionado (IDD). É um conceito novo e de difícil interpretação. Quando escrevi o ensaio com Chico Soares, tive muitas dificuldades em interpretar os dados que encontramos. Nas provas do INEP, tampouco estamos diante de um construto com interpretações intuitivas e transparentes.

Caberia, nesse momento, explorar o IDD e mostrar como se combina com o ENADE, tomando como exemplo a observação dos cursos incluídos nas avaliações já realizadas.  Pergunte-se a qualquer jornalista da área se o IDD dos cursos muito bons tende a ser maior ou menor do que o dos cursos fraquíssimos? Aposto que não sabem, embora essa diferença seja importantíssima para a política pública. Responde a uma pergunta crucial: os cursos de desempenho fraco dos graduandos estão oferecendo pouco aos seus alunos? Ou podem estar oferecendo muito a alunos fracos? Tal como o conceito de “empate técnico” nas pesquisas de intenção de voto, o IDD leva tempo para ser digerido pela opinião pública.

O mesmo desconhecimento existe para os indicadores de insumos ou de processo. Muitos livros na biblioteca fazem os alunos aprender mais? Professores de tempo integral têm um impacto positivo no aprendizado? E nas áreas profissionais?  Doutores ensinam melhor? Como se comparam com mestres? Para que perfil de alunos? Mesmo as análises multivariadas são muito enganosas, por confundir causa, efeito e multicolinearidade.

Daí a minha crítica ao MEC, por divulgar um conceito excessivamente complexo, abstrato e cheio de cacoetes. Na prática, o que vimos na imprensa foi o previsível: Oba! Mais uma olimpíada do MEC. Quem são os medalhistas? Quem são os fracassados? Ao mesmo tempo, não houve esforços de interpretar as nuances dos resultados.

Em conclusão: (i) Minha argumentação acima tenta demonstrar que Verhine não logrou apontar erros técnicos nos meus argumentos. (ii) Na minha leitura dos seus comentários, tampouco encontro que suas críticas contenham falhas lógicas ou teóricas. (iii) Nossas divergências são de interpretação e de uso de diferentes componentes do labirinto estatístico criado pelo CPC. Mas nesse campo, não são poucos os desacordos.

A campanha eleitoral e as boas opções para o Rio

Na tentativa de evitar o abuso do poder econômico e do acesso previlegiado de alguns candidatos aos meios de comunicação de massas,  a legislação brasileira  e a justiça eleitoral acabaram promovendo uma eleição sem graça, em que que os candidatos desfilam pelos programas eleitorais  da TV e do rádio como que  enlatados, sem espaço para confronto de idéias e debate público.  Até mesmo a Internet foi objeto de censura. Sem o uso pleno dos meios modernos de comunicação, resta aos candidatos o uso das máquinas eleitorais, a distribuição porta a porta de promessas e a campanha boca a boca. Não é de se estranhar que, neste processo, predominam os candidatos mais aparelhados, seja porque estão no governo, seja porque representam os interesses de alguma categoria, seja até, no caso do Rio, por representar as milícias que preliferam no Estado.

E no entanto, a campanha de 2008 está mostrando que existe espaço também para outras opções, de pessoas que se candidatam por representar idéias e valores  éticos e visão de longo prazo, preocupações que existem mas estão dispersas na população, não se aglutinam nem se organizam em uma máquina política .  A candidatura de Fernando Gabeira, atropelando nas pesquisas eleitorais na reta final, com fortes chances de chegar ao segundo turno, é o melhor exemplo disto. Entre os candidatos a vereador, os bons exemplos são duas mulheres, Aspásia Camargo e Andreia Gouveia Vieira, ambas com um forte currículo de trabalho produtivo, independente e inteligente em prol da cidade do Rio de Janeiro.

Para quem ainda não se resolveu, ou admite ainda mudar de idéia, sugiro clicar nos links dos nomes, para  decidir em quem votar.

Roberto Verhine: ajudando a entender a nova avaliação de ensino

Recebi a nota abaixo de Robert Verhine, professor da Universidade Federal da Bahia e membro da Comissão Nacional de Avaliação do Ensino Superior, com pedido de publicação. Ainda que a nota só faça referência ao artigo publicado recentemente por Cláudio de Moura Castro na revista Veja, ele se refere indiretamente também à crítica que eu tenho feito ao conceito, disponível neste blog.

Tenho lido textos de autoria de Cláudio de Moura Castro desde quando eu era aluno de pósgraduação nos Estados Unidos, nos idos da década de 70. Moura Castro é um pensador líder no campo da Economia da Educação e seus freqüentes artigos, publicados na Revista Veja, têm servido para esclarecer temas complexos, além de habitualmente endereçar tópicos controversos de forma independente e reveladora. Por essa razão, fui surpreendido pelo artigo publicado na Veja de 24 de setembro último, sob o título “Quem entendeu a nova avaliação de ensino?”, que oferece uma linha argumentativa confusa, baseada em informação incompleta e, por vezes, distorcida.

O artigo tem como foco o Conceito Preliminar de Cursos (CPC), que Moura Castro erroneamente chama de Conceito Preliminar de Avaliação. Este índice, composto por três indicadores e com escala de cinco níveis (1 a 5), foi criado pelo MEC para identificar cursos com problemas potenciais. Com base na legislação vigente, todos os cursos da Educação Superior devem ser visitados uma vez a cada três anos, mas a realidade aponta para a impossibilidade do atendimento dessa freqüência, pela simples razão de que o número dos cursos é grande demais (mais de 20.000) e que continua a crescer. O CPC foi criado como resposta a esse problema, viabilizando a avaliação ao permitir identificar, no conjunto dos cursos, aqueles que necessitam da visita ao tempo que, com base em informações confiáveis e já existentes, atribui um escore aos demais. Tendo isso em vista, foi implementada uma abordagem diferente para cada um de dois grupos de cursos. No primeiro grupo, todos os cursos nos níveis mais baixos da escala (níveis 1 e 2) devem ser visitados por uma comissão composta por membros da comunidade acadêmica especialmente treinados nessa avaliação. Durante a visita, três aspectos do curso – sua organização pedagógica, corpo social e instalações – são cuidadosamente avaliados e, como resultado, um conceito final é emitido. Do segundo grupo fazem parte os cursos que recebem um CPC de 3, 4 ou 5. Esses cursos podem, se desejarem, solicitar uma visita de avaliação. Contudo, se não o fizerem dentro de 30 dias, o conceito preliminar é mantido como conc eito final.

No seu artigo, Moura Castro não fornece nenhum dado sobre o propósito do CPC, concentrando-se em censuras não contextualizadas. O autor começa criticando a composição do índice, argumentando que o mesmo foi criado a partir da soma de indicadores muito díspares. Pior ainda, para ele, é o fato de esses indicadores serem pouco conhecidos individualmente. Esse argumento não se sustenta quando se observam outros índices, igualmente compostos por indicadores os mais diversos, como é o caso, por exemplo, do Índice de Desenvolvimento Humano (IDH), do Índice de Desenvolvimento Econômico (IDE) e do Índice de Qualidade de Vida (IQV). Todos esses são comumente utilizados para sintetizar, em uma única escala, variáveis representativas de diferentes dimensões de um mesmo fenômeno. No caso do CPC, como Moura Castro afirma, dois dos indicadores (os resultados do ENADE e o IDD) referem-se aos resultados da Educação Superior e o terceiro (composto por quatro sub-dimensões) abrange insumos do curso. Esses indicadores são bastante conhecidos por aqueles envolvidos com a comunidade universitária e estão descritos detalhadamente, assim como o CPC, no site do INEP. Para a população não universitária, espera-se do CTC o mesmo nível de conhecimento obtido pelos exemplos de índice citados acima. Além disso, é incorreto declarar que o CTC seja uma mera soma de três indicadores. Para seu cálculo, como indicado na página do INEP, os três indicadores são ponderados de acordo com equações matemáticas complexas.

Estranhamente, Moura Castro é crítico do fato de um indicador de insumo ser considerado na formulação do índice, vez que isso equivaleria, em suas palavras, a julgar um restaurante a partir da “marca do fogão, os horários dos cozinheiros ou o número de livros de culinária disponíveis”. Digo estranhamente por que avaliações externas da Educação Superior, uma prática hoje estabelecida regularmente em mais de 50 países, focalizam primariamente os insumos. Daí por que, nesses locais, tais avaliações envolvem visitas que objetivam verificar, in loco, as condições (ou seja, os insumos) que o curso ou instituição oferecem. A idéia de focar os resultados, como proposto por Moura Castro, é teoricamente interessante, mas traz em seu bojo o problema de mensurá-los adequadamente. Testes, a exemplo dos utilizados pelo ENADE ou pelo Provão, são limitados e capturam, no melhor dos casos, apenas uma porção daquilo que deve ser aprendido ou conhecido ao final de um curso de graduação. O ENADE é especialmente fraco nesse aspecto, por usar apenas 40 itens (30 sobre a formação específica e 10 sobre a formação geral), número obviamente insuficiente para avaliar o conhecimento necessário ao exercício de uma profissão de nível superior. Ademais, como observado por Moura Castro, os desempenhos nos testes sofrem influências de fatores externos, tais como a situação familiar, a preparação na Educação Básica, os níveis de motivação e de inteligência do respondente. Nesse sentido o IDD, que compara os resultados de alunos ingressantes com aqueles dos alunos concluintes, é um indicador bastante útil por apontar o que o curso adicionou aos alunos.

Aliás, ao discutir o IDD, Moura Castro omitiu dois aspectos importantes. Primeiro, o IDD é muito mais sofisticado que o que ele pareceu destacar. O indicador não é uma mera subtração da nota dos calouros daquela dos formandos, mas, particularmente, estima, baseado nos dados dos ingressantes, uma expectativa de nota final. Para isso considera não apenas os escores dos testes, mas também a educação dos pais e a seletividade do curso (percentagem dos ingressantes que concluem a graduação). Dessa maneira, o IDD representa a diferença entre os escores observados e esperados dos formandos e, assim, pode gerar tanto um escore positivo (quando o observado supera o esperado) quanto negativo (quando o observado é inferior ao esperado). Moura Castro refere-se ao IDD como Índice de Diferença de Desempenho quando, em verdade, o nome completo é Índice de Diferença entre os Desempenhos Esperado e Observado.

A segunda omissão feita é o não reconhecimento de que o IDD apenas funciona quando ambos os grupos de alunos (ingressantes e concluintes) estão motivados a responder, da melhor maneira que possam, o teste. Seria um desastre se os ingressantes optassem por obter uma nota baixa, dessa maneira contribuindo para um IDD artificialmente maior. Para evitar esse tipo de comportamento, os resultados dos ingressantes foram incorporados (com peso total de 27,5%) à nota do curso no ENADE. Assim, interessa à instituição incentivar os alunos, nas duas pontas do curso de graduação, a efetivamente participarem da avaliação, sob pena de prejudicarem a nota do curso. Moura Castro critica tal inclusão, declarando que a mesma “premia o curso superior que atrai os melhores alunos”. Tal fato também ocorreria mesmo se os resultados dos ingressantes não fossem incluídos, vez que os resultados dos concluintes são sempre influenciados pela qualidade dos alunos na entrada. Em outras palavras, não faz sentido defender a importância do IDD, por um lado, e criticar a inclusão dos resultados dos ingressantes na determinação do conceito do ENADE, por outro.

Moura Castro finaliza seu ensaio declarando que “parece inapropriado entregar ao público uma medida tão confusa”. O mesmo pode ser dito sobre o ensaio que, infelizmente, foi disponibilizado ao público apesar de conduzir a novas confusões.

Eleições USA: tática e estratégia | US elections: tactics and strategy

No debate  entre os candidatos, um dos momentos interessantes foi quando  Obama disse que o aparente sucesso do “surge” do General Patraeus no Iraque poderia ser uma vitória tática, mas o que era importante era a estratégia, e McCain respondeu dizendo que Obama não sabia a diferença entre estratégia e tática.  Para McCain, estratégia era isto: colocar mais tropas no terreno, manter posições, ou, como ele diz: “A strategy of going into an area, clearing and holding, and the people of the country then become allied with you. They inform on the bad guys. And peace comes to the country, and prosperity”.

Para Obama, a questão estratégica é muito mais ampla: estabelecer um novo relacionamento entre os Estados Unidos e o resto do mundo, sem entrar em aventuras militares, e evitar que situações como a do Iraque se repitam. Nesta mudança de postura, a questão de como sair do atoleiro do Iraq não deixa de ser importante, mas é secundária. É McCain, claramente, quem não parece ter idéia da necesssidade de uma nova estratégia para os Estados Unidos, além da doutrina Bush. Esta mesma diferença apareceu nas outras partes do debate, Obama insistindo na necessidade de uma política de cunho social-democrata, que dê prioridade a questões como saúde, educação e proteção social, e McCain insistindo na agenda conservadora do estado mínimo e não interventor.

Em certo sentido, a discussão lembra o debate brasileiro sobre a violência urbana. Que fazer, ocupar as favelas e combater os bandidos ou cuidar da questão social que aflige as cidades brasileiras? A resposta óbvia é que é um falso dilema. É necessário ter força e capacidade de intervenção para reduzir a violência, mas não  é possível mudar este quadro de forma mais permanente sem enfrentar as questões mais difíceis, e estratégicas, de repensar e reorganizar as cidades e dar-lhes um novo sentido.

É muito mais difícil, em uma campanha, propor estratégias de longo prazo, e por isto fiquei com a impressão que  McCain havia ganho o debate. As pesquisas, no entanto, parecem dizer que quem ganhou foi Obama (veja os links indicados por Bruno Reis em seu comentário). A crise econômica talvez explique isto. Nestas questões, é Obama que defende políticas mais práticas e imediatas em defesa de uma população na eminência de perder suas casas, suas poupanças e sua aposentadoria, enquanto que McCain ainda defende a redução dos impostos das grandes corporações.

A crise americana e a campanha presidencial |The American crisis and the presidential campaign

De viagem nos Estados Unidos, estava contando com a oportunidade de assistir daqui o primeiro debate dos candatos à presidência, logo mais à noite. Mas já é sexta feira de madrugada em Washington, e ainda não se sabe se o debate vai acontecer.  A campanha de McCain, esvaziada pela identificação com o governo falido de Bush e a falta de propostas, tem apelado para gestos espetaculares, começando pela invenção de Sarah Palin, para jogar a disputa para o campo da “guerra cultural”  entre os fundamentalistas religiosos e os liberais, e agora pelo anúncio de que o candidato suspendia a campanha, e o debate, para assumir lugar de liderança da aprovação das medidas para salvar a economia do país.  A Obama, devem ter calculado seus estrategistas, não caberia senão um papel passivo e irrelevante.

Um dia depois, o grande gesto se esvaziava – os congressistas republicanos não apoiaram o plano do governo, McCain não fez mais do que assistir a uma reunião aonde nada se resolveu,  sem exercer nenhum papel, e Obama aproveitou para dizer que, por causa da crise, era mais necessário do que nunca que a população tivesse a oportunidade de conhecer as propostas e escolher o próximo presidente do país, que vai herdar e ter que administrar toda esta confusão.  E ainda lembrou que um futuro presidente tem que ser capaz de fazer várias coisas ao mesmo tempo… Como são os democratas que têm a maioria no Congresso, são eles, com Obama, que vão afinal definir o rumo das negociações.

McCain vai ou não a Mississipi, para o debate?  De lá, dizem que os preparativos continuam, e Obama já confirmou a presença. Os estrategistas de McCain devem estar coçando a cabeça para sobre o que fazer, e como evitar que a cadeira de seu candidato fique vazia, sem reconhecer o fracasso da manobra.

As pesquisas eleitorais continuam dando vitória para Obama no Colégio Eleitoral, mas apertada – 273 a 265 votos, pela última estimativa que vi.  A crise econômica está claramente enfraquecendo a campanha de McCain, mas ninguém sabe o que pode ainda acontecer nesta campanha surpreendente.

A nova numerologia do INEP|The new numerology from INEP

Não contente com o “Conceito Preliminar de Cursos”, o INEP, incorrigível, agora lança na imprensa o “Indice Geral de Cursos da Instituição”, combinando os dados do conceito preliminar com as notas de avaliação da pós-graduação da CAPES.  Agora “sabemos” que as melhores universidades do Brasil são, nesta ordem, a Universidade Federal de São Paulo, a Universidade Federal de Ciências de Saúde de Porto Alegre, a Universidade Federal de Viçosa e a Universidade Federal de Minas Gerais; as piores são a Universidade de Santo Amaro, a Universidade do Grande ABC, a Universidade Iguaçu e a Universidade Estadual de Ciências da Saúde de Alagoas (a Universidade de São Paulo e a Universidade de Campinas, prudentemente, preferiram ficar fora da brincadeira).

Para que que serve mesmo saber que, segundo o INEP, a Universidade Federal do Rio de Janeiro está na posição 35? Isto ajuda os estudantes a decidir se vale ou não à pena se candidatar para fazer o curso de economia, medicina, educação física ou um doutorado em biofísica nesta instituição, ou uma pós-graduação na COPPE? Isto ajuda o MEC a decidir se vai aumentar ou diminuir os recursos de custeio da Universidade, ou fazer com que ela gerencie melhor os recursos que já recebe? O que se espera? Que ela chegue à posição 20 em “x” anos?…

Para quem que, como eu, sempre defendeu a necessidade de avaliar os cursos e as instituições de ensino superior no Brasil, fica uma situação difícil, já que esta numerologia reforça os argumentos dos que sempre acharam melhor não avaliar coisa nenhuma. O fato é que o INEP não tem condições de fazer uma avaliação adequada das 2.270 instituições e 22 mil cursos superiores que existem por este Brasil afora, e estes exercícios estatísticos, por mais bem feitos que sejam (e não são bem feitos assim, veja minha análise do “conceito preliminar”) estarão sempre sujeitos a demasiados erros e imprecisões, e por isto mesmo não poderiam ser divulgados pela imprensa como o são, ainda que sob o título de “preliminar”.

Que alternativas existem? Eu não tenho respostas prontas, mas acho que poderíamos começar por algumas coisas:

  • Ao invés de se preocupar tanto em controlar o ensino privado, o Ministério da Educação poderia começar por concentrar esforços em avaliar e controlar melhor suas  próprias 105 instituições  federais (é o dado de 2006), que são financiadas com recursos públicos, para ter certeza que seus cursos são bons, em áreas prioritárias para o país, e que os recursos estão sendo utilizados de forma racional e eficiente.
  • Para o setor privado, o Ministério deveria se limitar a assegurar que as instituições têm condições mínimas para funcionar. Ao invés de distribuir estrelas, haveria simplesmente uma certificação institucional (como um ISO educacional)  e também uma certificação dos cursos em instituições não universitárias (se não me equivoco, as universidades não precisam de autorização do MEC para criar cursos).
  • Recursos poderiam ser destinados para reforçar os sistemas de certificação profissional de médicos, advogados, professores, engenheiros e outras áreas profissionais de impacto na saúde, formação e patrimônio das pessoas.  Instituições públicas ou privadas que não formassem alunos capazes de passar por estas certificações seriam forçadas a fechar, ou se aperfeiçoar.
  • Deveria haver um esforço de desenvolver e explicitar as competências e habilidades profissionais esperadas nas diversas áreas profissionais, e usar este conhecimento para a criação de sistemas de avaliação das instituições por profissão, ou carreira, abrindo espaço para o reconhecimento das diferenças que existem entre os cursos em relação às competências que buscam desenvolver.
  • As instituições privadas, que hoje se sentem prejudicadas pelas avaliações que o INEP produz, deveriam levar a sério o projeto de criar sistemas próprios e independentes de certificação e avaliação de cursos e instituições, que pudessem eventualmente se contrapor aos números oficiais que o governo  vem divulgando. A idéia não seria criar um “inepinho” privado, mas ir estabelecendo sistemas de avaliação setoriais, por adesão das instituições interessadas em mostrar para  sociedade a qualidade que tenham. Os custos deveriam ser cobertos pelas instituições participantes.
  • A legislação existente, que criou o CONAES e o SINAIS, precisaria ser revista, para que o país possa desenvolver sistemas de avaliação do ensino superior que tenham qualidade técnica e legitimidade, respeitando a grande diversidade e as dimensões continentais do país, coisas que não ocorrem hoje.
WP Twitter Auto Publish Powered By : XYZScripts.com
Wordpress Social Share Plugin powered by Ultimatelysocial