Avaliando a pós-graduação: a prática da teoria *

Simon Schwartzman

Trabalho apresentado na reunião com Coordenadores de Programas de pós-graduação, Friburgo, 20 a 22 de outubro de 1982. Publicado pelo IUPERJ, Série Estudos, nº 10, dezembro, 1982.


A atribuição de "notas" aos programas de pós-graduação brasileiros, realizada pela CAPES através de seu sistema de Comissões de Consultores Científicos, provocou quieta satisfação entre os programas melhor aquinhoados, e protestos freqüentemente ruidosos entre os que receberam conceitos menos elevados. Estas avaliações servem de base para uma serie de decisões referentes a bolsas de estudo, apoio de infra-estrutura e outras formas de ajuda distribuídas aos programas de pós-graduação Além disto, a publicação dos resulta dos através da imprensa tende a consolidar a boa imagem dos programas bem avaliados, e a dar uma imagem pública de má qualidade aos menos considerados. Não se trata, pois, de um exercício inofensivo. As "notas" têm conseqüências sérias, e por isto merecem ser analisadas com cuidado. Por que foi criado este sistema? Que objetivos pretende? E, mais ainda: como, de fato tem funcionado?

A Teoria

O sistema de avaliação implantado pela CAPES tem o objetivo mais nobre possível: "registrar a evolução da pós-graduação brasileira e, através de um conjunto de critérios, avaliar a qualidade do desempenho dos cursos". "Isto facultaria a elaboração de mecanismos mais adequados de apoio institucional, contribuindo para o desenvolvimento das instituições e dos grupos vinculados à pós-graduação, assim como forneceria elementos para o planejamento de outras ações para o sistema".1

A necessidade de desenvolver algum sistema de avaliação é óbvia para instituições encarregadas de distribuir recursos em escala tão ampla quanto a CAPES e outras agências governamentais de apoio à pesquisa e à pós-graduação. Na ausência de um sistema deste tipo, recursos tendem a ser distribuídos de acordo com a tradição (os que já recebiam antes continuam a receber depois), em função de influências políticas ou das relações pessoais que determinadas pessoas no sistema de ensino e pesquisa consigam estabelecer com os funcionários das agências financiadoras. O que o sistema da CAPES tem de novo é, em primeiro lugar, a forma pela qual sua avaliação está sendo feita; e, em segundo, sua abrangência.

As primeiras tentativas de avaliar programas de pós-graduação, hoje abandonadas, tratavam de desenvolver sistemas de indicadores objetivos que pudessem ser quantificados e dos quais a posição dos programas e grupos pudesse ser inferida. A vantagem de um sistema deste tipo, se funcionasse, seria que ele estaria livre da subjetividade dos avaliadores. Seriam os fatos, e não a opinião das pessoas, que decidiriam. Indicadores mais ou menos clássicos foram desenvolvidos para este fim: publicações científicas, teses aprovadas, titulação de professores, numero de livros nas bibliotecas, etc. No entanto, ficou claro em pouco tempo que os resultados destas mensurações muitas vezes contradiziam frontalmente as opiniões consensuais dos conhecedores das diversas áreas cientificas e de pesquisa a respeito de quais eram efetivamente os bons e não tão bons programas. Além disto, a subjetividade só desaparecia na aparência: de fato, ela estava totalmente presente na seleção dos supostos indicadores de qualidade e nos pesos que lhes eram atribuídos.

A constatação destes problemas levou à adoção do critério oposto, que é a utilização a mais ampla possível do sistema de avaliação por pares (peer review). A idéia básica aqui é que, na realidade, somente os especialistas em cada área de conhecimento podem avaliar adequadamente seus respectivos programas. Esta avaliação é necessariamente subjetiva, no sentido de que ela não se traduz facilmente em um conjunto de indicadores objetivos; mas ela deve ser, pelo menos, intersubjetiva, ou seja, compartida dentro da comunidade à qual ela se refere.

Apesar da óbvia superioridade do sistema de a validação por pares em relação ao de indicadores objetivos, não deixam de haver alguns problemas também bastante sérios. O mais óbvio deles é o da seleção dos avaliadores. Na medida em que eles são selecionados arbitrariamente pela agencia avaliadora, eles podem representar interesses específicos de determinados grupos ou setores, é fazer suas avaliações em função disto. A alternativa seria fazê-los eleger pela própria comunidade a ser avaliada; mas, neste caso, eles representariam não o padrão de melhor qualidade, mas o padrão médio ou majoritário, e não teriam suficiente independência e autonomia para fazer suas avaliações. Mesmo atribuindo a melhor boa fé tanto aos avaliadores quanto aos que os selecionam, existem ainda problemas: em áreas contraditórias, como as de ciências sociais, eles podem participar de uma corrente determinada, e não reconhecer o valor das outras. O sistema de avaliação por pares funciona melhor, evidentemente, em áreas do conhecimento cujos paradigmas estejam melhor consolidados, e cujos critérios de competência científica e acadêmica, utilizados na seleção dos avaliadores, não estejam em disputa.

A solução desenvolvida pela CAPES busca combinar estes dois componentes, objetivos e subjetivos. Por um lado, foi implantado um sistema bastante completo de informações sobre os programas de pós-graduação em todo o país, com dados sobre numero de professores, numero de pesquisadores, trabalhos científicos publicados, linhas de pesquisa, alunos com teses completadas, etc. Por outro, foram acionadas as Comissões de Consultores Científicos que, de posse dos dados colhidos anteriormente, fazem as avaliações e recomendações a respeito de cada curso.

É importante notar que, apesar da existência de dados objetivos, as avaliações são feitas de forma subjetiva, ou seja, não existe nenhuma regra explícita que vincule um determinado conceito a determinadas informações sobre os cursos. Os avaliadores utilizam todas as informações de que dispõem, tanto as constantes dos levantamentos da CAPES como as que possuem independentemente, ou que resultem da troca informal de pontos de vista entre os membros das comissões. Além disto, a nota ou conceito é somente um dos resultados da avaliação Na realidade, segundo a CAPES, "o mais crucial são os pareceres analíticos referentes aos diversos aspectos do curso e a interpretação do conceito. Lamentavelmente, constata-se por parte dos usuários dos resultados da avaliação uma super-valorização do conceito em si (a letra) o que precisa ser repensado, visto que, isoladamente, ele não fornece aos cursos subsídios para a reflexão sobre o seu desempenho."2

A Prática

Se não existem regras explícitas que vinculem os conceitos atribuídos aos cursos com algumas de suas características objetivas, e possível que existam regras implícitas, e que na prática estas regras possam variar conforme a área de conhecimento, a região geográfica, etc. É possível, além disto, que estas regras implícitas sejam inconscientes, ou seja, que os avaliadores se deixem levar por alguns critérios de avaliação que não surgiriam espontaneamente se perguntados. Para verificar isto, fizemos um exercício que consiste em avaliar, empiricamente, as relações existentes entre os dados objetivos para os quais a CAPES possui informações e as notas obtidas pelos cursos. São os dados principais deste exercício que mostramos a seguir.

O primeiro quadro apresenta as medias dos conceitos para nove tipos de cursos, divididos segundo três critérios, a localização geográfica, a natureza jurídica (pública ou privada) e o fato de serem programas isolados ou vinculados a universidades. Ciências exatas (física, química) são distinguidas das profissões tecnológicas (engenharias de todo o tipo, principalmente); as profissões de saúde (medicina, farmácia) são separadas das ciências biológicas (biologia, genética, etc.); e as ciências sociais (sociologia, economia, antropologia) são separadas das profissões sociais (direito, administração, serviço social). As notas analisadas são as correspondentes ao ano de 1981, e correspondem ao curso de nível mais alto oferecido por cada instituição. Existiam notas para 696 cursos.

A primeira constatação é que, em geral, existe uma distribuição quase normal de notas dentro de cada área de conhecimento (foram atribuídos valores de 1 a 5 para as notas de A a E; quanto maior o valor, portanto, pior o conceito). Ha uma tendência para médias entre B e C (entre 2 e 3), com algumas áreas se valorizando mais (profissões agrícolas, média quase B) e outras menos (educação, media C).

As variações das notas por grandes categorias mostram algumas regularidades consistentes. Os programas da região centro-sul obtêm melhores avaliações, assim como os de instituições públicas. Pertencer ao setor público ou privado conduz a uma diferença maior do que a estar ou não no centro-sul. Quase não há diferenças entre os programas isolados e os em universidades. A mais importante discrepância se refere aos cursos de pós-graduação na área das profissões tecnológicas (engenharias), que têm melhor avaliação no setor privado do que no setor público. No todo, quase não há diferença entre programas isolados ou em universidades. No entanto, os programas isolados em biologia, profissões de saúde e profissões agrícolas tendem a ser melhores em estabelecimentos isolados do que em universidades. As piores avaliações são para os cursos na área de saúde do setor privado, e para os de profissões sociais também no setor privado e em estabelecimentos i solados; as melhores são para os programas de profissões agrícolas na área de Rio e São Paulo, e para os programas de tecnologia no setor privado, e para os de saúde em estabelecimentos isolados.

Quadro I - Notas Médias da CAPES
  Rio e São Paulo Resto do país Setor privado Setor público Programas isolados Programas universitários Total N**
Educação 2.85 3.16 3.00 3.00 * 3.04 3.00 26
Exatas 2.45 2.59 2.87 2.47 3.11 2.38 2.51 100
Biológicas 2.30 3.03 * 2.59 2.33 2.70 2.52 70
C. Sociais 2.25 2.70 3.07 2.24 2.78 2.41 2.46 104
P. Tecnológicas 2.62 2.81 1.40 2.78 3.30 2,56 2.69 78
P. Saúde 2.88 2.59 3.85 2.48 1.97 2.76 2.55 146
P. Sociais 2.88 2.96 3.42 2.75 3.50 2.82 2.91 59
P. Agrícola 1.60 2.26 * 2.02 1.73 2.10 2.02 71
Letras 2.75 2.57 4.12 2.35 * 2.63 2.69 42
Total 2.47 2.68 3.20 2.47 2.50 2.57 2.55 696
N** 415 282 77 619 123 573 696  
* indica a existência de somente um curso, ou nenhum; **O número de casos (AN) varia ligeiramente por eventuais ausências de informação.

Estes dados confirmam uma série de noções que existem comumente sobre os programas de pós-graduação no Brasil. Dois terços deles estão na região Rio - São Paulo, e eles são considerados consistentemente melhores do que os do resto do país. No entanto, as diferenças são menores do que poderíamos esperar. Os avaliadores da CAPES, pelo menos, têm melhor impressão dos programas fora do centro-sul do que freqüentemente se pensa. A maior diferença é na área de ciências biológicas, com .73 a favor do centro-sul. Em Letras, os programas fora de Rio-São Paulo recebem melhor avaliação.

Segundo, fica claro que a pós-graduação ocorre predominantemente no setor público, e que os programas do setor privado recebem sistematicamente pior avaliação As maiores diferenças são nas áreas de letras (diferença de 1.77) e profissões da saúde (1.37). A grande exceção é na área de engenharia, onde alguns centros privados conseguem padrões de qualidade.

Terceiro, os dados comprovam a tendência de alguns dos bons programas de pós-graduação se localizarem em instituições isoladas, como que se protegendo das dificuldades próprias dos grandes sistemas universitários. Isto é particularmente verdadeiro para a área de saúde e ciências biológicas; nas demais, no entanto, ocorre o oposto. Existe, evidentemente, uma certa superposição entre programas isolados e programas privados, e um tipo de característica se contrapõe à outra.

Uma vez estabelecidas estas diferenças mais gerais, coloca-se a pergunta mais séria: será que todos os avaliadores utilizaram os mesmos critérios? Que características dos programas de pós-graduação pesaram mais na determinação das notas? Como estes critérios variaram de grupo para grupo de programas?

Uma primeira aproximação a este problema pode ser obtida pela análise de regressão, cujos principais resultados estão indicados no Quadro 2. A análise de regressão permite avaliar a contribuição específica da variação de uma série de variáveis na variação dos valores de uma variável dependente determinada (coeficientes b); além disto, quando os valores são estandardizados, ela permite comparar a influência específica de cada variável independente (coeficientes beta); finalmente, ela permite avaliar em que medida a variação de cada variável independente se ajusta à variação da dependente (coeficientes de correlação parcial, r). A combinação de todos os coeficientes parciais dá uma medida da variação da variável dependente em função do conjunto das independentes (R). Em geral, o quanto da variável dependente é "explicado" pelas independentes é avaliado pelo quadrado do coeficiente de correlação múltiplo (R2). O nível de significação dá a probabilidade de que a correlação encontrada seja aleatória. No Quadro 2 estão indicados os coeficientes de correlação múltipla, os coeficientes de correlação parciais e, por asteriscos, os níveis de significação, para diversos subconjuntos dos cursos avaliados. Os resultados mais gerais podem ser vistos na ultima linha, que inclui os 661 cursos para os quais existem todos os dados. A primeira observação é que, tomados em conjunto, as variáveis independentes que pudemos utilizar explicam somente cerca de 20% ((.45) 2) do total da variação das notas. Estas variáveis incluem o ano de criação do programa (antigüidade), número de professores, numero de pesquisadores, volume de produção científica (pela contagem de trabalhos publicados de todos os tipos, constantes dos relatórios da CAPES), localização geográfica e pertencimento ao setor público ou privado (outros tipos de informação, constantes dos relatórios, poderiam ter sido incluídos na análise, incluindo o número de teses publicadas e alguma medida de titulação dos professores).

Quadro 2 - Modelos de Regressão para Notas da CAPES (coeficientes de correlação) variáveis (r parciais)
  R Múltiplo Antigüidade n. de Professores n.de Pesquisadores Produção Científica Região Rio/ SP/Resto Setor Público/ Privado
Área tecnológica e biológica (N = 448) .45** .21** .04 ..07 ..12* ..06 .10
Área de humanidades (N=213) .50** .26** ..13 ..17* .16 .22* .31**
Área científica (N=247) 49** .24** .09 ..10 .17* .19* .17*
Área profissional (N=389) .45** ..23** .02 .12 .15* .04 .14*
Educação (N=26) .75** .47 .19 .28 .58* .12 .05
Ciências exatas (N=95) ..58** .23 .21 .22 .32** -.07 .14
Ciências biológicas (N=69) .60** ..36* .02 .03 .09 .16 .16
Ciências sociais (N=98) .62** .29* .20 .18 .24 .37** .41**
Profissões técnicas (N=75) .69** .26 .06 .00 .42** ..02 .03
Saúde (N=138) .34* .18 .06 .07 .05 ..03 .21*
Profissões sociais (N=51) .50 ..26 .04 .23 .15 ..02 .06
Profissões agrícolas** (N=71) .59** ..25 -- .35* -- .45** --
Letras (N=138) .71** .09 .00 .10 .02 .02 ..60**
Total (N=661) ,45** .22** ..00 .10* ..13** .11* .15**
** significativo a.001
* significativo .01
*** os coeficientes para a área agrícola foram obtidos por uma regressao de tipo '"stepwise", que só selecionou as variáveis assinaladas. A comparação destes dados com os demais é somente aproximada. (Obs.: Os sinais dos coeficientes foram invertidos quando necessário para corrigir a inversão da escala de notas).

O pouco poder explicativo destas variáveis se deve, em parte, a que existem outros fatores, que aqui não estão presentes, que influenciam as avaliações; e, em parte, ao fato de que os diversos fatores são considerados de forma distinta conforme os diferentes tipos de curso.

Estes dados devem ser tomados evidentemente com cautela, já que as correlações, apesar de significativas, são baixas. Além disto, como o Quadro 3 indica, existe uma alta correlação entre o numero de professores e o de pesquisadores nos diversos programas, o que gera um problema de multicolinearidade.

De qualquer forma, é importante observar que a variável que mais se correlaciona com a avaliação da CAPES é o ano de inauguração do curso, ou seja, sua antigüidade, e isto é válido tanto para o total quanto para a maioria dos subgrupos. A segunda em importância e á localização do curso no setor público ou privado; a terceira, sua produção científica; a quarta, sua localização regional; a quinta, seu numero de pesquisadores.

O que estes coeficientes parecem sugerir é que, na medida em que existem alguns fatores gerais que afetam as avaliações da CAPES, eles se referem principalmente à institucionalização do programa, o prestígio que estabeleceu através do tempo, e só secundariaménte a seu desempenho acadêmico, medido pela produção científica. A analise dos diferentes subgrupos mostra, no entanto, algumas variações interessantes.

Quadro 3 - correlações Produto-Momento
  Notas - CAPES* Antigüidade n. de Professores n. de Pesquisadores Produção Científica Centro/ Sul ou Resto País Público / Privado
Notas CAPES* 1.00            
Antigüidade .26 1.00          
n. de Professores -.29 -.14 1.00        
n. de Pesquisadores -.33 -.14 .84 1.00      
Produção Cientifica -.32 -.18 ..55 .61 1.00    
Centro/Sul .09 ..04 .09 .01 -.09 1.00  
Setor Público -.17 .00 .22 ..19 ..05 ..18 1.00
*A=1, E=5 * significativo .01

Em primeiro lugar, existe uma clara diferença entre programas cujas avaliações são mais difusas e aqueles cujas notas dependem mais das variáveis de que dispomos. Assim, mais de 50% da variação das notas dos programas de educação e letras são explicados pela regressão; nas profissões de saúde, no entanto, a explicação não chega a 12% (.342). Em geral, pareceria que, nas áreas mais antigas e consolidadas, a informação específica e quantificada não é necessária, por que os avaliadores '"já sabem" quais são os bons e os maus programas; no entanto, estas informações são utilizadas mais intensamente em áreas menos estabelecidas.

A avaliação da produção científica de um programa a partir de seu volume de publicações é uma medida extremamente grosseira e aproximada. Ela serve para diferenciar os que publicam muito dos que não publicam quase nada, mas não discrimina entre boas e más publicações; pior, ela privilegia um tipo determinado de produção científica, que é o artigo impresso, e deixa em segundo plano outros tipos de produto, mais próprios de setores mais voltados à atividade de desenvolvimento tecnológico, ou de capacitação profissional de alto nível.

É natural que, na área de ciências exatas, esta seja a variável que mais se correlacione com as avaliações da CAPES, já que a cultura científica própria desta área privilegia, normalmente, a produção de artigos escritos. O baixo peso desta variável em relação às disciplinas de saúde e de ciências biológicas mostra que nestas áreas mais tradicionais o modelo das ciências exatas parece não ter penetrado com tanta força. Mais interessante, no entanto é o peso da produção científica para áreas de implantação mais recente, como as de educação e das profissões tecnológicas Pareceria que aqui, na falta de uma tradição própria, os critérios de avaliação inspirados nas ciências exatas são utilizados com muito mais ênfase.

O simples tamanho dos programas, medido pelo numero de seus pesquisadores, não tem peso preponderante em nenhuma das áreas; no entanto, ele parece pesar mais em áreas onde a produção científica joga um papel menor (profissões agrícolas, área de humanidades como um todo).

A localização institucional parece ser o que mais pesa na avaliação dos programas de ciências sociais (ser do Setor público, estar na região Rio * São Paulo). O caráter público é o único que diferencia os programas de letras considerados melhores dos considerados piores, enquanto que a localização geográfica tem um peso inesperadamente alto em relação às profissões agrícolas.

A comparação entre os programas agrupados pelas áreas tecnológica e biológica (ciências físicas e naturais), por um lado, e ciências sociais e humanidades por outro, mostra que, enquanto as avaliações das primeiras respondem mais diretamente a diferenças de produção científica, as segundas dependem mais de características institucionais. Por outro lado, é curioso que quase não existam diferenças quando os programas são diferenciados entre os de conteúdo especificamente científico (física, biologia, sociologia, etc.) e os de orientação profissional (direito, engenharia, medicina, etc.)

Conclusões provisórias: a teoria da prática

Apesar de suas evidentes limitações, a análise anterior permite penetrar um pouco nesta "caixa preta" que é o sistema de avaliação por pares. Ela nos permite chegar a uma lista de proposições que são pelo menos sugeridas pelos dados:
1. os avaliadores não dão muita importância aos dados quantificados. No entanto, na medida em que o fazem,
2. existe um "'efeito de Halo", ou de prestígio, que está associado à antigüidade dos programas e sua localização institucional;
3. o critério de produtividade científica, em termos de publicações acadêmicas, funciona nas áreas científicas mais clássicas, e é adotado com rigor talvez exagerado em áreas novas sem tradição anterior.
A primeira conclusão não é surpreendente. Na realidade, o sistema de avaliação por pares existe exatamente pela precariedade das quantificações. Os avaliadores suprem esta precariedade, mas, ao fazê-lo, podem incorrer em dois tipos de erro. O primeiro, que não temos como estimar aqui, consistiria em avâliações discrepantes entre os diversos avaliadores. Será que as avaliações não seriam distintas se fossem outros os avaliadores? Seria possível testar isto comparando ás notas dos diversos avaliadores, ou formando comissões de avaliação que funcionassem de forma paralela. O outro tipo de erro ou tendenciosidade seria deixar-se levar por critérios não muito claros ou discutíveis.

A segunda constatação poderia apontar nesta direção. Uma interpretação possível seria que os avaliadores tendem a ter uma atitude conservadora, deixando-se guiar, principalmente, por critérios consensuais e difusos de prestígio das instituições. Ao mesmo tempo, dada a extrema juventude de nossos programas de pós-graduação (a grande maioria foi criada depois de 1960) e a instabilidade existente em muitas áreas, não há dúvida que a institucionalização, a capacidade de funcionar de forma estável através do tempo já á uma indicação de qualidade.

A terceira constatação, não obstante, parece ser a mais importante. "Pós-graduação" pode significar uma pluralidade de coisas, desde a formação de pesquisadores em física teórica até a de professores de matemática, engenheiros especializados e administradores de empresa. Cada uma destas áreas responde a uma tradição intelectual e profissional distinta, desenvolvida no país ou importada do exterior.

Destas diferentes tradições de trabalho, a mais conhecida e estudada é a da ciência acadêmica. Ela valoriza a pesquisa e a publicação, tende a possuir redes de intercâmbio de idéias e informações em escala internacional. As pessoas valem pelo que publicam, e por sua presença nestas redes. As tradições tecnológicas também existem, mas tendem a ser bastante diferentes de área para área, e não comparáveis entre si. E existem disciplinas novas, que na realidade não têm uma tradição de trabalho anterior, e que procuram se amoldar aos padrões mais conhecidos e prestigiados das ciências acadêmicas. Os dados sugerem que o modelo acadêmico é aplicado com tanto mais rigor quanto menor seja a tradição própria de cada área; e isto pode ter conseqüências problemáticas quando, por sua própria natureza, estas áreas devessem ser regidas por outros padrões.

* * *

Diante dês-te quadro, será que se justifica, afinal, todo este esforço de avaliação e atribuição de notas aos programas? E, ainda mais: será que se justifica sua divulgação?

Acredito que, em última análise, sim. A atividade educacional e de pesquisa exige um componente inevitável de qualidade. Sê o objetivo não é simplesmente dar emprego a professores e títulos aos alunos, mas formar gente de bom nível e gerar conhecimentos significativos, é necessário poder distinguir o ruim do bom. A avaliação não pode ser entendida como uma atribuição de notas por juizes imparciais e independentes, mas como parte do processo pelo qual a própria comunidade vai explicitando seus critérios e definindo seus padrões de qualidade. Para que este seja realmente um processo, três condições são necessárias. Primeiro, que os resultados destas (e de outras) avaliações sejam difundidos e discutidos. Segundo, que o resultado destas discussões, e de análises como a que esboçamos neste texto, sejam de uma forma ou de outra levados em consideração em avaliações futuras, de tal forma que o que era inconsciente se explicite, e o que era duvidoso se discuta e se reveja. A terceira é que exista, cada vez mais, uma interação entre dados e avaliações subjetivas, para que os primeiros sejam obtidos de forma cada vez mais adequada aos propósitos das avaliações, e que estas se afastem, tanto quanto possível, das imagens difusas e freqüentemente rigidificadas com que operam, e tomem o máximo de realidade em consideração.


Notas:

* Agradeço a Patrizia Suzzi pela ajuda no processamento dos dados, e a Amaury de Souza pela ajuda na interpretação. Os dados utilizados são provenientes da CAPES, e estão sendo utilizados para a elaboração da amostra de uma pesquisa comparativa internacional sobre a organização e desempenho de unidades de pesquisa, em andamento no IUPERJ, e que conta com o a poio da FINEP. A responsabilidade deste texto é exclusiva, no entanto, do autor.

1. CAPES, Notas sobre a Avaliação da Pós-Graduação, Coordenadoria de Acompanhamento e Avaliação, agosto de 1982, mimeografado, p. 1.

2. Notas sobre a Avaliação da Pós-Graduação, p. 6 <