Los Nueve Principios del Desempeño de la Sostenibilidad
Fortalezas y debilidades de las pruebas estandarizadas como mecanismos inclusivos de admisión a la educación superior
1. 16 de diciembre de 2015
Pontificia Universidad Católica de Chile,
Santiago
Programa Talento y Inclusión
Richard P. Phelps
Fortalezas y debilidades de las pruebas estandarizadas
como mecanismos inclusivos de admisión
a la educación superior
2. ¿Qué es una prueba estandarizada?
Una evaluación con al menos un aspecto - su
contenido o administración – que es el mismo para
todos quienes la rinden
¿Cuál es la principal ventaja de las pruebas
estandarizadas?
¡Que es estandarizada!
3. ¿Cuál es la principal desventaja de las pruebas
estandarizadas?
¡Que es estandarizada!
4. Hay tres tipos de pruebas estandarizadas utilizadas
en el contexto del ingreso a la universidad
Contenidos
Aptitud
No cognitiva
5. Pruebas de contenidos - Historia
J.M. Rice
– analizó sistemáticamente la
estructura y efectos de las pruebas
E.L. Thorndike
– desarrolló escalas de puntuación
Al comienzo, eran versiones más extensas de pruebas
escolares
~ 1900 – pruebas “científicas” de rendimiento
(Alemania y EE.UU.)
6. Pruebas de contenido en general
Objetivo: medir el dominio de los contenidos o habilidades
Desarrolladas: sobre la base del currículum (alineación
curricular)
Mayoría de las pruebas en
el aula (desarrolladas por
docentes) son de contenido
7. Pruebas de contenido para el acceso
a la universidad
¿Cómo se validan?
Por su alineación con el currículo de la escuela secundaria
Correlación con otras medidas, como las notas de educación
media y ranking
Asume que todos tienen la misma oportunidad de aprender
contenidos equidad
Son, en alguna medida, entrenables - dominio de contenido se
conoce de antemano
8. Pruebas de Aptitud
- Historia
Niños en edad preescolar con discapacidad mental
- Imposible evaluarlos a través de pruebas de contenido
- Buscó desarrollar pruebas de capacidades mentales
libres de contenido : asociación, atención, memoria,
habilidades motoras, razonamiento
A. Binet y T. Simon
1890s (Francia)
9. Pruebas de Aptitud - Historia
1917
Adaptadas por el Ejército
de Estados Unidos para
seleccionar y asignar
soldados en la Primera
Guerra Mundial
Estados Unidos entró en la
guerra tarde, Paris estaba
bajo amenaza, y
necesitaba movilizar
tropas muy rápidamente
10. Pruebas de aptitud, en general
Objetivo: predecir cuánto puede ser aprendido
Desarrolladas: mediante el análisis de las habilidades
necesarias para llevar a cabo ciertas tareas, ampliamente
utilizado en la industria
Empleadas para identificar estudiantes talentosos o
alumnos con necesidades especiales
También se llaman pruebas de razonamiento
Los pruebas de inteligencia son un tipo de pruebas de
aptitud y utilizan la escala desarrollada originalmente por
Binet y Simon
11. Las pruebas de aptitud para el
acceso a la universidad
¿Como son validadas?
Validez predictiva: correlación con actividad futura
(ej. rendimiento universitario).
Poco énfasis en contenidos:
- Contenido utilizado es básico, amplio, comúnmente
conocido por todos
- Prueba mide lo que los estudiantes son capaces de
hacer con los contenidos
No puede ser fácilmente entrenado:
- Dominio del contenido es de conocimiento común:
demasiado amplio como para ser foco de estudio
12. Las pruebas de aptitud para el
acceso a la universidad – Historia
Década de 1930
El presidente de la U. de Harvard,
J. Conant …
- Quería una nueva prueba de
admisión para identificar alumnos
de las clase socio-económica baja
con potencial para tener éxito en
Harvard : "diamantes en bruto”
- Alentó al desarrollo de la primera
Scholastic Aptitude Test (SAT)
13. - alumnos que se aburren en la
educación media, pero que estudian lo
que les interesa por su cuenta
- alumnos desadaptados a la cultura de
la escuela secundaria, pero que
pueden adaptarse bien a la cultura
universitaria
- alumnos de alta capacidad
perjudicados por haber asistido a
escuelas de mala calidad
Las pruebas de aptitud para el
acceso a la universidad
Las pruebas de aptitud, bien construidas, pueden identificar:
14. Pruebas no-cognitivas - Historia
( miden actitudes, preferencias, comportamientos y
circunstancias de vida )
En realidad, más una
encuesta que una
prueba.
Utilizado por las
organizaciones
empresariales para
predecir el "ajuste"
entre un solicitante de
empleo y la cultura de la
organización
15. Pruebas no-cognitivas
Se desarrollan a través de cuestionarios, entrevistas personales.
El contenido es personal,
no requiere de estudio
Involucra más
sentimientos que
conocimientos
Aborda comportamientos
y circunstancias de vida.
16. Pruebas no-cognitivas en general
Distintos tipos: pruebas de integridad, exploración de carrera,
búsqueda de pareja, evaluación de fortalezas y debilidades para
ambientes particulares (ej. universidades, empleo en ciertas
carreras, programas militares)
Validado por validez predictiva, tasas de éxito en actividades
futuras.
Muy fácilmente falseables - "fingir" puede ser fácil; postulantes
pueden simular ser honestos y trabajadores, incluso si no lo son.
17. Las pruebas no-cognitiva para el
acceso a la universidad
Muchos factores no cognitivos son aplicables para predecir el
éxito universitario: por ejemplo, la perseverancia, la confianza,
la ambición, la curiosidad, la estabilidad familiar, la estabilidad
laboral.
Pruebas no cognitivas se validan a través de la correlación con
los resultados futuros, tales como la permanencia en la
universidad
Al ser fácilmente falsificables, las pruebas no cognitivas se
administran normalmente después de la admisión a la
universidad: sus resultados son usados para brindar apoyo
estudiantil y no con fines de selección
18. Más información suele ser mejor
Si la universidad fuera igual que la enseñanza media, las notas
de la enseñanza media y una prueba de contenidos bastarían
para fines de admisión
Pero la universidad no
sólo es más desafiante
académicamente que la
enseñanza media,
también es muy
diferente en otros
aspectos...
19. … tiene una más amplia variedad de estudiantes y profesores
… está más lejos de casa, requiere mayor tiempo de desplazamiento
… tiene profesores que además de enseñar hacen investigación
… tiene menos estructura, lo que requiere de más organización por parte
de los alumnos
… tiene menos supervisión, requiere de más iniciativa de los estudiantes
… demanda un menor número de horas de clase, pero requiere de más
horas de estudio personal
… el (la) estudiante elige lo que estudia (estudio focalizado), entre otros.
¿Cómo es diferente la universidad?
20. Para fines de admisión hay que maximizar la
información disponible con el fin de mejorar el
calce entre el alumno y la institución
Tres medidas son
importantes:
1. Validez predictiva
2. Diferencias entre grupos
3. Cobertura de contenidos
21. Validez predictiva
Mide si las puntuaciones en una prueba de admisión se
correlacionan con los resultados en la universidad
(por ejemplo, buenas calificaciones en los cursos,
graduación oportuna)
Mide la cantidad de información única que provee una
prueba de admisión, más allá de la información disponible
a partir de otras medidas.
Validez predictiva incremental
22. Los valores de validez predictiva
van desde -1,0 a +1,0
-1,0 representa la más alta correlación negativa posible
0 representa ausencia total de correlación
+1.0 representa la mayor correlación positiva posible
La correlación se puede representar gráficamente
con un diagrama de dispersión
23. Correlación positiva:
De la población de parejas casadas: la edad de la
mujer y la edad del marido
coeficiente
de
correlación,
r = + 0,97
24. + 1,0
Más ejemplos de diagramas de dispersión y coeficiente
de correlación:
+ 0,85
- 0,50
+ 0,15
25. Validez Predictiva
de accesso a la universidad
Mide cuán bien los puntajes en las
pruebas de admisión predicen
mejores resultados en la universidad
(por ejemplo, notas graduación)
Una prueba con baja validez predictiva provee
poca información
26. 0
0.1
0.2
0.3
0.4
0.5
0.6
Language Mathematics SAT Writing PSU Social
Science
SAT
PSU
2010
Validez predictiva: SAT y PSU
SOURCE: Pearson, Final Report Evaluation of the Chile PSU, January 2013;
SAT data from College Board.
27. 0
0.1
0.2
0.3
0.4
0.5
0.6
Language Mathematics SAT Writing PSU Social
Science
SAT PSU Administracion
Validez predictiva: SAT y PSU
(Carrera: Administración)
SOURCE: Pearson, Final Report Evaluation of the Chile PSU, January 2013;
SAT data from College Board.
28. 0
0.1
0.2
0.3
0.4
0.5
0.6
Language Mathematics SAT Writing PSU Social
Science
SAT PSU Arquitectura
Validez predictiva: SAT y PSU
(Carrera: Arquitectura)
SOURCE: Pearson, Final Report Evaluation of the Chile PSU, January 2013;
SAT data from College Board.
29. 0
0.1
0.2
0.3
0.4
0.5
0.6
Language Mathematics SAT Writing PSU Social
Science
SAT PSU Educacion
Validez predictiva: SAT y PSU
(Carrera: Educación)
SOURCE: Pearson, Final Report Evaluation of the Chile PSU, January 2013
30. Diferencias entre subgrupos
Las diferencias en las
puntuaciones entre los
subgrupos de población (por
ejemplo, género, etnia y tipo
de escuela) deben responder
sólo a diferencias en aquello
que la prueba debe medir y
no a factores ajenos (sesgos
sistemáticos) debidos a la
pertenencia a un grupo
específico
31.
32. Media de puntuación de PSU Matemática
por tipo de escuela secundaria, 2001-2010
19-12-2015
300
350
400
450
500
550
600
650
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
Private Municipal SH Municipal TP
34. 34
Cobertura de Contenidos
(valores entre 0% y 100%)
La cobertura completa del plan de
estudios de la educación media es
más importante en asignaturas
como las matemáticas o la música
donde los conocimientos son
acumulativos. Importa mucho
menos en las asignaturas que se
inician en el ámbito universitario,
como la arquitectura, la medicina o
la educación.
35. 35
Cobertura de Contenidos
Cuestión de la equidad
No es justo esperar que los estudiantes dominen
contenidos a los cuales no han estado expuestos ...
o comparar estudiantes que han estado expuestos
al contenido con otros que no lo han estado
¿Cuánto del contenido de una prueba se ha
cubierto en la enseñanza media?
La oportunidad de aprender es un requisito de
equidad, particularmente en países en que el retorno
de la inversión en educación superior es alto
36. Los retornos a la inversión en la educación superior en
Chile es, proporcionalmente, el más alto entre los 35
países de la OCDE.
Los beneficios para la sociedad de más graduados
universitarios es alto – p.ej. en un pueblo rural tener
un médico por primera vez.
Los beneficios para los graduados universitarios como
individuos es aún mayor: reciben salarios mucho más
altos que los menos educados.
Retorno de la inversión la
educación superior
39. Es mayor en Chile que en otros 35 países de la OCDE.
Dos posibles soluciones:
1. Matricular a más estudiantes
2. Aumentar la eficiencia de la búsqueda y calce de
estudiantes e instituciones de educación superior, lo
que aumenta la eficiencia del proceso de enseñanza-
aprendizaje, y aumenta la retención.
¿Cómo? ¡Maximizando la validez predictiva!
La necesidad de más graduados de
la educación superior
Notes de l'éditeur
I will speak in English, but most slides are in Spanish.
Strengths and weaknesses of standardized tests as inclusive mechanisms for admission to higher education.
Q. What is a standardized test?
A. An assessment with at least one aspect – in its content or administration – is the same across groups.
Q. What is the key advantage of standardized testing?
A. It is standardized. Non-standardized measures, such as teacher grades, are more volatile, unreliable, and subjective.
What is the key disadvantage of standardized testing?
It is standardized. While tests can be standardized, test-takers cannot be, and everyone’s situation is different.
Three types of standardized tests used in the context of university entry
AchievementAptitudeNon-cognitive
First type of test: Achievement Tests - History
In the beginning, achievement tests were simply larger versions of classroom tests
~ 1900 – modern “scientific” achievement tests developed in Germany & USA
J.M. Rice - systematically analyzed test structures & effects of testing
E.L. Thorndike - developed scoring scales
Both were from the United States, but studied in Germany. [picture of Edward Thorndike –nice moustache]
Achievement tests in general use
Purpose: to measure mastery of content and skills
Developed using: using the curriculum as the basis for test development. A key issue is alignment of the content of the test with the content of the curriculum
Almost all teacher-made classroom tests are achievement tests [picture of another man with a nice moustache]
Achievement tests in the context of university entry
How validated: through alignment with secondary school curriculum
Correlated with other measures, such as high school grades and rank
Fairness assumes that all students have had the same opportunity to learn content
Coachable – somewhat, content domain is known in advance
Second type of test: Aptitude tests – History
1890s – A. Binet & T. Simon (France)
Pre-school children with mental disabilities
- achievement test not possible
- developed content-free test of mental abilities
(association, attention, memory, motor skills, reasoning) [picture of Monsieur Binet – larger moustache, stylish glasses]
Aptitude tests - History
1917 – Adapted by U.S. Army to select, assign soldiers in First World War
United States entered the war late, Paris was under threat, and needed to mobilize very quickly
[picture is a recruitment poster for the war]
Aptitude tests in general use
Purpose: to predict how much can be learned
Developed by: first analyzing in detail the skills needed to succeed in a job; widely used in industry
Also used to identify talented students or students with special needsAptitude tests are also called reasoning or readiness testsIntelligence tests are a type of aptitude test, still using the scale originally developed by Binet and Simon
Aptitude tests in the context of university entry
How validated: predictive validity, correlation with future activity (e.g., university grades)
Fairly content independent which means it places little emphasis on content knowledge
… content used is basic, broad, commonly known by all
… test measures what student does with the content provided
Not easily coachable
…content domain is common knowledge, too broad a domain for focused study
Aptitude tests for university entry - History
1930s – Harvard University president J. Conant
Disliked content tests that penalized students from lower SES who had less access to quality education
Wanted new admission test to identify students from lower socio-economic classes with potential to succeed at Harvard – “diamonds in the rough”
Encouraged the development of the first Scholastic Aptitude Test (SAT), adaptation of the U.S. Army test
[ picture of James Conant on cover of most popular news magazine of the era – no moustache ]
Aptitude tests in the context of university entry
Well constructed aptitude tests can identify, for example:
bright students who were bored in secondary school but studied what interested them on their own
students not well adapted to high school culture, but may adapt well to university culture
students of high ability held back by poor quality schools
[ picture of diamond in the rrough ]
Third type of test: Non-cognitive tests - History
Measure attitudes, preferences, behaviors, and life circumstances at home and work environments
Really, more a survey than a test. Frequently used by business organizations to predict the “fit” between a job applicant and the culture of the organization
Non-cognitive tests
Administered using: questionnaires, personal interviews
Content is personal, not learned
More about feelings than knowledge.
Assesses behaviors and life circumstances.
Non-cognitive tests in general use
Different Types of non-cognitive tests: integrity tests, career exploration, matchmaking, assessment of strengths and weaknesses for particular environments (e.g., education programs, employment in certain careers, military programs.)How are they validated? Predictive validity, success rates in future activities.
Very coachable - "faking" can be easy; job applicants pretend to be honest and hard-working even if they are neither.
Non-cognitive tests in the context of university entry
Many non-cognitive factors are applicable to predicting university success: e.g., perseverance, confidence, ambition, curiosity, family stability, job stability.
Non-cognitive test validated by correlation with future outcomes, such as staying in school.
Due to fakery problem, non-cognitive tests are normally administered after admission to university and used to help student services office advisors advise students. They are not usually used to make selection decisions.
More information is usually better
If university were just like secondary school, perhaps high-school grades and a retrospective content test would suffice for admission purposes.
But, university is not just more challenging academically, it is very different from secondary school in other respects, too. For example:
Typically, for example, university…
Is larger, with a wider variety of students and teachers
Is farther from home, may require long commute
Has teachers who do research as well as teach
Has less structure, requiring more student organization and self-discipline
Has less oversight, requiring more student initiative
Has fewer hours in class, but more hours of studying
Has content chosen by student and more focused, among others
…and you can probably think of other ways university is different than high school
If more information is better, we should maximize the information available about a student at university entry, in order to make the best match between the student and the institution
Three measures are important to consider:
1. Predictive validity
2. Differences between groups
3. Content coverage
Predictive validity
Measures how well scores on an admission test correlates with desirable outcomes at university (e.g., good grades in courses, timely graduation)
Incremental predictive validity
Measures how much unique information an admission test provides, beyond what is available from other measures.
Predictive validity values range from -1.0 to +1.0
-1.0 represents the highest possible negative correlation
0 represents no correlation at all
+1.0 represents the highest possible positive correlation
correlation is graphically represented with a scatterplot
An example of a scatterplot showing a strong positive relationship:
Data come from a population of married couples: plots wife's age against husband's age
correlation coefficient, r = +0.97
More scatterplot and correlation coefficient examples
Upper left – perfect correlation – two factors completely define each other
Upper right – a negative relationship – when one factor increases, the other decreases – 0.50 mid way between perfect correlation and no correlation
Lower left – another strong positive relationship
Lower right – very weak positive relationship, almost zero
Predictive validity in the context of university entry
…measures how well higher scores on admission test match positive outcomes at university (e.g., grades, persistence, completion)
A test with low predictive validity provides a little information.
Predictive validities: SAT and PSU …from Pearson’s 2013 evaluation of the PSU
In Language, Mathematics, Writing (only SAT), Social Science (only PSU)
Predictive validities: SAT and PSU in Administration
Predictive validities: SAT and PSU in Architecture
Predictive validities: SAT and PSU in Education
Differences between subgroups
Differences in scores between population subgroups (e.g., gender, ethnicity, type of school) should respond only to the differences measured by the test construct and not to systematic biases due to subgroup membership.
Socio-economic background and PISA scores
PISA is the international test given by the OECD to 15-year olds; In this chart, the vertical axis represents PISA scores and the horizontal axis represents socio-economic status.
The average scores of Chile’s students are shown for municipal, subsidized private, and paid private schools.
The municipal students score is at the lower left near the fitted line; the subsidized private score is one quarter of the distance up the line; the paid private score is found in the upper right, near the top of the line and above the OECD average PISA score and above average socio-economic
Average PSU Mathematics score by type of secondary school, 2001 to 2010
The green bars represent the average scores of private paid scientific-humanities students in the math test;
The yellow bars represent the municipal school scientific-humanities students and the red represent the technical-professional students.
Notice:
private school student scores have increased over time while municipal school student score have not; and
the scores of municipal scientific-humanities students have risen while those of technical-professional have fallen
This chart comes from the most recent OECD statistics annual.
High performing education systems combine equity with quality. The vertical axis represents each country’s average PISA reading score. The horizontal axis represents socio-economic variation. Countries with the highest socio-economic variation are on the left; Countries with the least socio-economic variation are on the right. One can see a correlation – lower socio-economic variation is associated with higher scores. Chile can be found in the lower left quadrant—with higher socio-economic variation and lower scores.
Content coverage - values between 0% and 100%
Thorough coverage of the secondary school curriculum matters more in highly accretive subjects, such as mathematics or music. It matters much less in subjects that start at the university level, such as architecture, medicine, or education.
Content coverage - values between 0% and 100%
How much of the content of a test has been covered in secondary school?It is not fair to expect students to have mastered content to which they have not been exposed ... or compare students who have been exposed to the content with others who have not.
Opportunity to learn is required for fairness. It is also needed for social efficiency in societies where the return on the investment in education is high, like in Chile
Return on higher education investment
The returns to investment in higher education in Chile are proportionally the highest among 35 OECD countries.
Social benefits from more university graduates is high – consider rural village getting a medical doctor for the first time.
The benefits to individual graduates are even higher; they receive much higher salaries than the less-educated.
This chart comes from the most recent OECD annual education statistics publication. It is not yet available in Spanish.
In this chart, the vertical axis shows the proportion of each country’s adult population with higher education.
The horizontal axis shows the average difference in income for adults with higher education compared to those with upper secondary education.
Chile is in the lower right. Relatively low in its higher education proportion, but the relative earnings premium of a higher education degree is the highest in the world. This suggests a shortage of higher education graduates in Chile.
This chart shows the earnings premium in a column chart. Chile is on the extreme right. Not only is the higher education earnings premium the highest in the world, the earnings premium of the highest degrees—masters, PhD, or equivalent—is twice that of a bachelor’s degree. For Chile, it is, literally, off the chart.
The need for more graduates of higher education -- It is higher in Chile than in 35 other OECD countries.
Two possible solutions:
Enroll more students and hope they graduate.
Increase the efficiency of matching student to higher education institution, which increases the efficiency of the teaching-learning process, and raises retention.
How? Maximize predictive validity!