SlideShare une entreprise Scribd logo
1  sur  90
Télécharger pour lire hors ligne
 
 
 
 
 
 
 
 

Beyond the Mean 
Data analysis for School Leaders 
 
 
Glen Gilchrist 
Alexavier Fareheed 
 
 
 
 
 
This edition published by LULU, February 2012 
ISBN: 978‐1‐4716‐1146‐9 
 
This  work  is  licensed  under  a  Creative  Commons  Attribution‐NonCommercial‐
ShareAlike 3.0 Unported License  (CC BY‐NC‐SA 3.0). 
 
To view a copy of this license, visit http://creativecommons.org/licenses/by‐nc‐sa/3.0/ 
or  send  a  letter  to  Creative  Commons,  171  Second  Street,  Suite  300,  San  Francisco, 
California 94105, USA. Whilst the Creative Commons License for this book entitles you 
to  distribute  /  modify  the  work  for  non‐commercial  use,  without  additional 
permissions,  we  kindly  request  that  you  inform  the  authors  of  any  intention  to  re‐
publish / remix this title. Send an email to mean@goingbeyond.co.uk 
 
Every  effort  has  been  made  to  contact  perceived  copyright  holders  for  material 
reproduced  in  this  publication.    Any  omissions  or  oversights  will  be  rectified  in 
subsequent  editions  if  written  notice  is  given  to  the  author.  All  trademarks  are  the 
property of their respective owners. The authors are not associated with any product 
or  vendor  mentioned  in  this  book  except  where  stated.  Unless  otherwise  stated;  any 
third‐party  quotes,  images  and  screenshots,  or  portions  thereof,  are  included  under 
‘fair use’ for comment, news reporting, teaching, scholarship, and research. 
 
Acknowledgements 
The  authors  would  like  to  thank  Michelle  Gilchrist  for  her  help,  support  are  tireless 
proof reading skills, without which, this book would not have seen the light of day. 
 
Disclaimer 
This is a book aimed at those readers wanting to explore data as used to drive decisions 
in schools.  It is not a comprehensive guide to statistics – no responsibility is assumed 
or  accepted  for  your  decisions  based  on  your  data.    Using  the  techniques  detailed  in 
this text provides an aid to decision making whereas, the decision to act is left to the 
discretion of the reader.  No liability can be placed with the authors of this text.  
 
By using the material contained within this guide, you acknowledge that you have read 
and accept this disclaimer 



                                                2
 
Preface to first edition 
 
 
I have to admit a long standing and growing interest in the subject of statistics.  As a 
research scientist before finding my vocation as a teacher I used the tools of statistics 
on a daily basis to inform my research and to plan future investigations.  When I started 
on my teaching career I was amazed at just how underdeveloped the use of “proper” 
numbers was, both in the classroom and within the wider arena of educational policy 
making.  Far reaching decisions are made on the basis of poorly researched and under 
analyzed  data.    Everyone’s  tax  investments  and  our  endeavors  as  a  teacher/leader  is 
constantly  being  misdirected  by  the  improper  analysis  of  data.    This  book  is  my 
contribution to the cause of using data in an appropriate and considered manner. 
 
Good luck dear reader. 
Glen Gilchrist, February 2012 
 
 
I’ve been head of faculty for 5 years now and in all that time, I don’t think that I’ve seen 
anyone  –  literally  anyone  in  the  education  sector  use  data  in  a  robust  manner.  Sure, 
I’ve  seen  pretty  bar  charts  and  tables  used  to  justify  interventions  and  to  determine 
policy.  I’ve sat through too many INSET sessions discussing the consequences of poorly 
analyzed  data;  in  fact  I’ve  been  asked  to  lead  on  data  sessions  as  presented  to 
incoming PGCE, NQTs and new staff – I guess in short, I’ve become part of the problem. 
I  believe  that  you  dear  reader  have  an  obligation  to  reflect  upon  the  data  that  you 
collect and the consequences of your analysis.  
 
Alexavier Fareheed, February  2012 
 
 

Corresponding with the authors 

Data  analysis  can  be  a  lonely  pursuit.    The  authors  are  happy  to  receive  questions, 
queries and other correspondence – send an email to mean@goingbeyond.co.uk.   



                                                 3
 




    4
Contents 
     

Introduction                                                                 9 

    It’s easy to see why data is mishandled and unsafe conclusions drawn.    10 

Essential definitions                                                        11 

    A word about software                                                    12 
    Minitab  13 
    Final note                                                               13 

Chapter 1                                                                    15 

  DATA ANALYSIS THAT SCHOOLS “DO”                                            15 
    Why we use the mean average                                              15 
    Factors we can compare                                                   16 
    Central tendency                                                         16 
    The mean ‐ a point statistic                                             16 
    More sophisticated analysis                                              18 
    Complementing the mean – bar charts                                      19 
    Using the mean to compare “segments” of data                             20 
    Using the language of statistics                                         21 
    The wider school picture                                                 21 
    Call to action                                                           23 
    Conclusions                                                              24 

Chapter 2                                                                    25 

  THE PROBLEMS WITH THE MEAN                                                 25 
    Statistics in action                                                     26 
    Call to action                                                           26 
    Problems with the mean                                                   27 
    Call to action                                                           27 
    The dangers of presumption – pre analyzing the data                      28 
    Call to action                                                           28 
    What do your bar charts show?                                            29 

                                           5
Ethics, politics and “getting your own way”                  30 
    Call to action                                               31 
    How big an effect / difference is “big enough” to matter?    32 
    Extra information in a “modified” bar chart                  33 
    Call to Action                                               33 
    Looking at a whole cohort                                    34 
    Preconceptions again                                         35 
    Conclusions                                                  36 

Chapter 3                                                        37 

  COMPARATIVE STATISTICS                                         37 
    What does significant mean?                                  37 
    T‐tests and p values                                         37 
    Calculating significance using Excel                         40 
    Excel command for T‐testing                                  41 
    Call to action                                               43 
    Conclusions                                                  44 

Chapter 4                                                        45 

  FACTORS WITH MULTIPLE LEVELS.                                  45 
    Multi level factors                                          45 
    Combine levels to make a binary solution                     45 
    Calculating t‐test for “binned” data                         48 
    Limits of the t‐test                                         49 
    Multi level factors                                          50 
  ANALYSIS OF VARIANCE                                           50 
    Does attendance affect attainment?                           51 
    Fitting a trend line to Excel data                           52 
             2
    Using R  to check for “goodness” of fit                      54 
    One way Analysis of Variance (ANOVA)                         58 
    Non numeric multi level factors                              61 
    Call to action                                               66 
    Pause for breath ……..                                        67 
    Questions to reflect on                                      67 
    Conclusions                                                  68 


                                               6
Chapter 5                                       69 

    GENERAL LINEAR MODEL (GLM)                  69 
      Constructing a GLM                        70 
      Deeper analysis                           73 
      Extending the GLM                         75 
      Building interactions into the GLM        77 
      Big implications of the GLM               79 
      Call to action                            80 
      Conclusions                               80 

Chapter 6                                       81 

    MAIN EFFECTS                                81 
      Main Effects Plot                         83 
      Interactions Plot                         84 
      Call to action                            88 
      Conclusions                               88 

Chapter 7                                       89 

    FINAL REMARKS                               89 
      Tools you’ll need:                        89 
 




                                            7
 




    8
Introduction 
 
Every  school  leader,  head  of  subject  and  class  room  teacher  will  recognize  the 
following scenario:   
 
It’s  a  school  INSET,  and  what  wonderful  pedagogical  expertise  is  going  to  be  shared 
with you, the willing staff? – Yes, you’ve guess it “Addressing the gender differential” – 
the very name sends waves of déjà‐vu through the staff and the authors of this book 
develop an instant migraine.   
 
We’re not denying that there is a difference between the genders and their approach 
to education; nor are we suggesting that as teachers and leaders that you don’t need 
to monitor things to ensure that situations aren’t improving/deteriorating ‐ what brings 
us  to  the  point  of  tears,  is  that  this  statement  is  based  on  poorly  and  superficially 
analyzed data.  
 
As we will show in this book, it’s easy to assume that responses will be different for a 
certain factor, and when you just look at the mean of data set, this “difference” is often 
seen  –  you’ve  then  proved  your  initial  assumption  and  you  don’t  look  for  a  more 
fundamental  root  cause.    In  our  experiences,  this  is  the  case  with  the  gender 
differential, and I bet you’ve fallen into it too. 
 
When  we  came  into  teaching,  for  the  first  time  in  our  professional  lives  we  became 
aware of the situation of being “data rich but information poor”.  Education abounds 
with numbers, and schools, students & teachers have never been “measured” as much 
as they are in 2010‐20111  
 
But which numbers do you use and which demand that you take them seriously? 
 
 

                                                            
1
     Whilst this appears to be particularly true of the English / Welsh systems, all educational infrastructures 
constantly battle with league tables, “banding” and other lists 


                                                               9
 
 

It’s easy to see why data is mishandled and unsafe conclusions drawn.   

 
Until  very  recently,  use  of  correct  descriptive  statistics  was  the  preserve  of  the 
statistician, often resulting in the calculation of arcane numbers, utilizing impenetrable 
mathematics.  Indeed, pick up anything but the most basic of statistics text books and 
the  reader  will  soon  be  swimming  in  a  sea  of  mathematical  notation,  far  beyond  the 
readability of those without degrees in mathematics.   
 
But  with  the  change  is  responsibilities,  the  TLR  structure,  and  the  reduction  is 
extraneous funding, the expectation is that as a subject/school leader, you undertake 
data analysis and draw conclusions. 
 
I doubt you’re trained in statistics (and why should you be?) ‐ so instead of carrying out 
statistically  valid  analysis  you’ve  have  returned  to  that  most  basic  of  measure  –  the 
“average” – after all, it’s easy to calculate and means something doesn’t it? 
 
Throughout  the  text  of  this  book,  we  will  look  at  analysing  the  data  a  typical 
department in a school might produce – initially by calculating “means” and developing 
this into a more rigorous assessment of data. 
 
 
So dear reader, this book is aimed at classroom practitioners, heads of department and 
school leaders seeking a deeper understanding of what your data actually shows.   
 
In a nutshell, we’re going to take you “beyond the mean”.  
 
Glen Gilchrist & Alexavier Fareheed 
2012 




                                               10
Essential definitions 
We need to define three vital terms that will be used throughout this text: 
 
Factor:  A factor is a variable whose values are independent of changes in the values of 
        other  variables.    Traditionally  factors  are  the  groups  into  which  we  split  our 
        data – gender, SEN, free school meals are examples of educational factors. 
 
Level:  Factors can be split into different values.  Statistically, these values are called 
        levels.   
                  
        Levels  can  be  numerical,  quantitative  or  qualitative,  binary  or  multi  level.
         
        Binary Levels               
        Levels  can  be  binary  in  nature  “boy  or  girl”,  “SEN  or  not”  and  can  be 
        represented numerically “1=boy, 2=girl” or remain as text.   
         
        Multilevel Levels 
        Levels are not always binary, “originating primary school” for example could be 
        one  of  10  or  more  levels,  with  each  school  either  referred  to  by  name  or  a 
        coded “number”             1=School A, 2=School B etc 
                  
        For  continuous  levels  (age  and  attendance  are  good  examples)  levels 
        themselves  might  be  grouped  together  to  make  analysis  easier.    These 
        groupings are often called “bins” and reference will be made to “bin size”. 
 
        Attendance for example could be binned as: 
 
        ‐1 = less than 80% 
        0= 80% to 89.9% 
        1 = 90% and greater 
                  
        The numerical value of the groups (‐1, 0, 1) is not important and the labels are 
        used to  dentify the grouped levels.  Some consideration needs to be made into 
                i

                                                11
                  the size / range of the groupings as this choice can affect subsequent 
                  data  analysis  –  however  this  is  outside  the  scope  of  this  text,  and  for 
                  the analysis undertaken in schools, just ensure that the bins are  
                  “sensible”. 
 
 
Response:         The response is the output that you are measuring.  For school based 
                  data, average or total points score and number of “C’s” are the typical 
                  responses measured. 
 
 
 

A word about software 

MS  Excel  is  referred  to  throughout  this  text  and  is  used  as  convenient  shorthand  for 
“spreadsheet”.    We  acknowledge  that  other  spread  sheets  such  as  OpenOffice  and 
GoogleDocs are available and can be used fairly interchangeably for MS Excel (except 
where  indicated).    Each  has  their  strengths  /  weaknesses,  but  all  process  statistical 
information in much the same manner.  There is no need to change your spreadsheet 
package to complete the numerical analysis undertaken in the majority of this text. 
 
Some  of  the  more  advanced  statistics  require  the  use  of  a  dedicated  statistics  tool.  
Recently  the  cost  of  these  tools  has  fallen  dramatically  and  academic  licenses  can  be 
obtained  for  less  than  £50.    We  cannot  recommend  strongly  enough  the  value  in 
obtaining the correct tool to analyze your data. 
 
A great list is maintained at Wikipedia, which compares different statistical tools, their 
costs and licenses:  http://en.wikipedia.org/wiki/Comparison_of_statistical_packages.   




                                                 12
 

Minitab 

Throughout this book the authors makes use of Minitab as a conveniently easy tool to 
get  to  grips  with  and  available  at  an  excellent  price  (from  sub  £20)   
(http://www.minitab.com/en‐GB/academic/licensing‐options.aspx).  The publisher also 
makes available a free 30 day trial – more than enough time to learn the ropes and to 
process data for your self evaluation. 
 
 
 

Final note 

The  authors  are  practicing  teachers,  currently  heads  of  subject  in  maintained 
secondary schools and have no association with any of the tools / software / publishers 
mentioned in this text. 
 
 
 
“Data analysis is a journey that the only destination is enlightenment – get ready for 
the ride of your life.”  Glen & Alexavier – February 2012 




                                            13
 
 




    14
Chapter 1 

Data analysis that schools “do” 
One of the biggest challenges in getting data used correctly in schools used to be the 
actual collection and manual processing of the “numbers”.  Now with tools such as MS 
Excel,  OpenOffice  and  GoogleDocs  available  to  all,  the  challenge  has  shifted  to  the 
actual processing and analysis that turns “numbers” into “data”. 
 
Courses  abound  in  educational  circles  about  the  “use”  of  data,  but  from  personal 
experiences they all focus on 3 areas: 
 
    1. Sources of baseline data (CATs, FFT, Government, Feeder Primaries) 
    2. Segmenting the data (gender, free school meals, SEN) 
    3. Monitoring, assessing and explaining student performance against (1) and (2) 
 
Valuable as these courses are (and a significant improvement on not using data), they 
all  focus  on  basic  statistics  –  the  mean  average,  range  and  a  cursory  diversion  into 
drawing  and  formatting  bar  /  line  graphs;  and  whilst  this  is  encouraged,  reliance  on 
these measures alone can lead to poorly drawn and costly conclusions.   
 

Why we use the mean average 

Whilst Excel et al have democratized the collection and analysis of data, they have also 
exposed the fact that most users of these tools are unaware how to use them at a high 
enough level to process statistical information. As a result, most users are content with 
tabulation,  calculation  of  “averages”  of  data  sets  and  with  drawing  basic,  overly 
coloured bar charts.   
 
These  “averages”  are  then  used  to  draw  conclusions,  usually  in  the  form  of 
comparisons;    Boys  vs  Girls,  free  school  meals  vs  non  free  school,  English  vs  Maths, 
2009 vs 2010, one school vs another. 
 



                                                15
Factors we can compare 

The candidate list for comparison is long: special educational needs, ethnicity, “looked 
after”,  target  group,  literacy  “booster”  support  or  a  hundred‐and‐one  other 
educational imperatives.  A situation that I am certain occurs in your school. Indeed the 
schools  inspection  framework2  demands  that  schools  use  data  to  “identify,  plan  and 
monitor” the attainment of “groups” of learners.  Without extensive use of such data, 
schools cannot hope to achieve a coveted “Grade 1” status.  
 
We will expose in this chapter the dangers of using just the mean to represent a data 
set,  and  show  how  drawing  conclusions  can  lead  to  costly  and  unnecessary 
interventions. 
 

Central tendency 

Used in this context, the mean is a “measure of central tendency”3 
 
The  two  most  widely  used  measures  of  "central  tendency"  of  data  are  the  mean
(average) and the median. For example, to calculate the mean weight of 50 people, 
add the 50 weights together and divide by 50. To find the median weight of the 50 
people, order the data and find the number that splits the data into two equal parts.  
The median is generally a better measure of the centre when there are extreme values 
or  outliers  because  it  is  not  affected  by  the  precise  numerical  values  of  the  outliers 
themselves (The median is often used to describe “average” earnings in a population as 
it is not affected by a small number of very large (or small) salaries) .  
 

The mean ‐ a point statistic 

The mean is a “point” statistic – that is, it reduces an entire data set to a single value, 
useful to succinctly describe the data.  (However, you lose any sense of the spread and 
variability of the numbers).   As a result, the mean is the most widely used measure of 
central tendency, but as we will see, not always the most useful. 

                                                            
2
     UK wide, but certainly heavily endorsed in England and Wales 
3
     There are three measures of central tendency used to describe data sets – mean, mode and median.  If 
you are unfamiliar with these terms or just need a recap, remember – Google is your friend. 


                                                               16
 
For example, the Average Points score for 5 schools in 2011 was: 
 
                                                      Average 
                                     School 
                                                    Points Score 
                                        A                435 
                                        B                403 
                                        C                440 
                                        D                427 
                                        E                438 
 
 
What conclusions can be drawn from this data? 
 
        School “C” is the best performing 
        School “B” is the least performing  
        Schools “A”, “C” and “E” all have similar points scores 
        School “B” needs to do “something” as its performance is very different to the 
         other schools. 
 
 
It’s  likely  that  such  analysis  is  undertaken  at  this  level  in  both  your  department  and 
whole school self evaluations.   
 
The consequences of such analysis are likely to be some form of change, intervention 
or closer monitoring. In short, money, time and effort will be expended acting on this 
analysis  of  means.    A  situation  that  we  are  sure  has  happened  in  your  school  or 
department. 




                                                 17
 

More sophisticated analysis 

Further  and  seemingly  more  sophisticated  analysis  will  have  you  looking  at  the  same 
data over a period of 3 or 5 years: 
 
 
                       School         2008‐2009         2009‐2010        2010‐2011 

                          A               425               430              435 
                          B               440               420              403 
                           C              411               424              440 
                          D               425               430              427 
                           E              430               438              438 
 
 
What does this show? 
 
        School “C” is the most improved over the 3 years 
        School “B” has fallen 37 points over 3 years 
        Schools “D” and “E” have shown little improvement over the three years 
 
 
As  part  of  your  self  evaluation  /  action  plan  –  you  will  have  undoubtedly  looked  at  3 
year trends in mean data.  You’re likely to have compared your results to that of other 
departments, between local, national and family of schools and made pronouncements 
on how well you are doing compared to last year. 
 
To try an unravel some of the mystery about what your data is showing you, chances 
are you’ll draw a bar chart of the means. 
 




                                                 18
 

Complementing the mean – bar charts 

Let’s complete the analysis and draw a bar chart of the data for the schools over three 
years: 
 




                                                                                               
 
What does this chart show us? 
 
         It emphasizes the fall in performance of school “B” 
         The performance gains of school “C” look incredible 
         School “D” looks all but static over the past three years 
 
Overall, what conclusions can be drawn about schools “A” to “E”? 
 
         School “A” is doing something that is improving performance 
         School  “C”  is  clearly  doing  something  “better”  than  the  other  schools  and 
          better than school “A” 

                                               19
   School “D” appears not to be doing anything and performance is static 
        School  “E”  looks  like  something  happened  during  2009‐2010,  but  these  gains 
         have stopped and the school has not improved since. 
        School “B” looks like it’s in free fall and standards are falling rapidly 
 
 
No  doubt  such  analysis  is  regularly  completed  by  you  and/or  your  senior  leadership 
team. And if our personal experiences are reflected in your school the stress levels and 
anxiety rises in proportion to the preparation and analysis of such data. 
  

Using the mean to compare “segments” of data 

As  a  teacher,  administrator  or  policy  maker  we  often  need  to  compare  the  means  of 
two  or  more  populations  –  essentially  to  test  whether  or  not  an  intervention  or 
observation produces a measurable difference.  For example, the average points score 
for Year 11 students upon receiving their L2 qualifications is often segmented into data 
for males and females.  
 
 
                                      Average Points Score 
 
                                       Boy                402 
                                       Girl               448 
 
 
As a result of this basic analysis, decisions and policy will be decided.   
 
In  this  case,  “clearly”  there  is  a  sex  linked  differential  between  Boys  and  Girls  –  with 
Girls  outperforming  Boys  by  some  10%.    From  this  analysis  of  means  an  intervention 
will  be  planned  –  possibly  grouping  next  year’s  cohort  into  separate  sex  classes, 
planning boy friendly lessons and tweaking the seating plans. 
 
Again, we’re sure that you’re familiar with such segmentation of data and are certain 
that  your  self  evaluation  contains  statements  about  the  gender  differential  and  how 
you intend to tackle it. 
 

                                                  20
Using the language of statistics 

At this point, let’s start to use the language of statistics more fully. 
 
In the case above for boys / girls L2 performance: 
 
             We have one factor, SEX, split into two levels (Boy and Girl) – we say we have a 
              binary factor. 
               
             Our response is the Average Points Score 
 
From now on, we will use factor, level and response to describe our data. 
 
 

The wider school picture 

Such analysis is extended across the wider school, comparing the differentials in your 
subject to those in English, French and DT4 ‐ as a direct result of this analysis a working 
party  or  even  a  PLC5  will  be  created  to  tackle  the  clear  differences  between  subject 
areas.   
 
(Whilst  written  here  in  a  tongue‐in‐cheek  manner,  I  suspect  that  your  school  has  at 
some  point  created  a  working  party  to  contemplate  differences  in  responses  when 
factors are analyzed for mean differences) 
 
 




                                                            
4
     Insert the high performing subject areas in your school 
5
      PLC  –  Professional  Learning  Community,  school  based  collaborative  action  research  –  for  more  details 
see:  http://www.centerforcsri.org/plc/program.html 


                                                               21
 
 
What can we conclude from this chart? 
 
        French has the smallest sex differential 
        Science has the widest differential 
        In DT, boys outperform girls 
 
The  temptation  in  this  case  is  to  view  the  French  differential  (low)  as  in  some  way 
“better” that the Science differential (high) and to invest time and resources in solving 
the “problem”.   
 
We’re not suggesting that this does not need to be solved; just that the data analysis 
performed so far does not demand such investigations, merely hints at it 
 
 
 
 
 

                                               22
Call to action 

    1. Do  you  know  the  three  measures  of  central  tendency  and  when  to  use  each 
        one? Do you know how to get Excel to calculate each? 
         
    2. Find your self evaluation and identify where you have used the mean of a data 
        set to draw a conclusion about segmentation of data 
         
    3. Look  at  the  charts  and  graphs  you  have  created  for  your  exam  analysis 
        meeting.  Are they based on means of data?  What conclusions did you draw 
        from them? 
         
    4. Look at whole school, local and national data – how often is an entire data set 
        reduced to a point statistic? 
         
    5. How well can you use your spreadsheet tools?   
             a. Can you enter formula to calculate the average of a data set?   
             b. What  about  counting  the  numbers  in  a  column  when  the  value  in  a 
                  different  column  is  a  particular  value?  (CountIF()  –  used  to 
                  automatically count data, say based on a column containing the sex of 
                  a learner) 




                                             23
 

Conclusions 

During this chapter we have shown the basic data analysis undertaken by schools.  As 
subject  team  leader  we  imagine  that  you  have  laboured  over  such  figures  yourself, 
painstakingly entering figures into MS Excel, creating comparison bar / pie charts and 
drawing conclusions based on the mean average of data sets.   
 
You’ve  likely  taken  such  figures  into  exam  analysis  meetings  with  your  head  teacher 
and drawn conclusions about why students who obtain free school meals do “less well” 
in your subject than, say, Spanish. 
 
 
All of these things are a step in the road to understanding how to use data effectively 
and the fact that you are reading this title demonstrates a clear desire to take your use 
of data to a higher, more effective level. 
  
In the coming chapters I’ll show you why data analysis based solely on the mean of a 
population  is  dangerously  superficial  and  can  lead  to  misdirected  effort  and  the 
potential to miss a more fundamental underlying truth. 
 




                                              24
Chapter 2 

The problems with the mean 
Demonstrating  that  there  are  “issues”  with  using  the  mean  of  a  data  set  is  often  the 
most instructive way forward. 
 
Consider the following data obtained for a group of year 10 Maths students. 
 
                                Student  L / R Hand  Score
                                    A             R           80 
                                    B             R           78 
                                    C             R           82 
                                    D             R           84 
                                    E             R           76 
                                    F             L           82 
                                    G             R           81 
                                    H             L           79 
                                     I            L           79 
                                    J             R           81 
                                    K             L           84 
                                    L             R           76 
                                    M             R           81 
                                    N             R           78 
 
If we take the average of the left handed and the right handed students, we obtain; 
 
                                    Hand              Average Score 
                                    Left                   81 
                                    Right                 79.7 
 




                                                 25
From  this,  we  conclude  that  right  handed  students  underperform  compared  to  left 
handed  –  we  might  even  plan  further  monitoring,  investigate  the  scheme  of  work  to 
look for bias and set up a far reaching working party. 
 

Statistics in action 

If you take any data set, made up from “real” data – and by real, I mean measured from 
real people / events, not simulated on a computer, and segment that data into two – 
you are likely to see a difference between one group and the other. 
 
In this case, we looked at L and R hands, but the argument holds for any segmentation, 
regardless of how ridiculous it sounds. 
 

Call to action  

1. The next time you teach any class, survey them for one of the following: 
        o    Xbox or Playstation 
        o    Blackberry or iPhone 
        o    Eastenders vs Coronation Street 
        o    Family Guy vs American Dad 
 
        (The choices don’t need to be binary, but at this stage, it will help with the data 
        analysis) 
 
2. Add this segmentation to the class register. 
         
3. The  next  time you “test”  your learners, split  the data into the segments that you 
    have just defined and calculate the mean for each:  (for example) 
 
                                Console            Average Score 
                                    Xbox                67 
                               Playstation              83 
 
    Ask yourselves the following question – does this show anything meaningful? 



                                              26
Have  we  just  uncovered  the  route  to  educational  success  –  “buy  everyone  a 
Playstation” or is there something else going on? 
 
Whilst  a  contrived  example,  I  am  sure  from  your  own  experience  that  this 
segmentation and superficial analysis has been undertaken – possibly with the gender 
differentials cited in the previous chapter. 
 
 

Problems with the mean 

From  the  previous  example,  what  exactly  are  the  problems  with  using  the  mean?  
Some observations stand out: 
 
    1. The difference between left and right handed is small – 1.3 –  
              a. The question we should ask is: 
                    
                   “Is this difference big enough to matter?” 
                    
    2. There are only 4 left handed students – does this affect the conclusions?  
                    
                   “How much data do you need to draw realistic inferences?” 
 
These  issues  aside,  we  are  sure  that  you  have  drawn  conclusions  using  similarly 
analyzed data. 
 
 

Call to action 

Before you read on, either for your own data or the data presented previously, splitting 
into Left and Right handedness, use your favourite spreadsheet to draw a bar chart of a 
set  of  results  that  can  be  split  into  two  segments.    For  the  purposes  of  this  text,  I’ll 
assume that you’ve used my data.         



 
 



                                                    27
 

The dangers of presumption – pre analyzing the data 

The  analysis  of  data  by  using  just  the  mean  is  not  the  only  concern  for  rigorous  data 
analysis.   
 
When  we  presume  there  is  a  difference  between  two  segments  of  data,  we  are 
unsurprised  when  we  find  it,  and  are  then  more  likely  to  accept  that  difference  as 
meaningful.  After all boys and girls are different, so when your data shows this, it must 
be true – right? 
 

Call to action 

What presumptions do you make in your data analysis? 
 
    1. Would  you  have  expected  left  and  right  handed  segmentation  to  produce 
           different means?  
               a. Can you think of a pseudo‐pedagogical reason why this might be true? 
                     
    2. What about other splits of data?  
               a. Everyone  knows  that  free  school  meals,  linked  to  poverty  affects 
                    attainment – right?  Does your data show this difference? 
            
            
When  you  analyze  your  data  and  find  a  difference,  you  are  ready  to  accept  it  as  real 
and meaningful.  The same is true with gender, SEN and a host of other factors that we 
assess. 
 
 




                                                 28
 

What do your bar charts show? 

Let’s  show  you  my  plots  the  mean  data  for  handedness  as  a  series  of  bar  charts,  all 
showing the same data: 
 

                                             A                                                 C 




                                             B                                                 D 




                                                                                                        
 
Firstly, let me assure you that these charts all show the same “numbers” for the left 
and right hand segmentation of the data.  
 
Chart “B” is the default MS Excel and OpenOffice formatting of the data as entered. 
 
The only difference between each chart is the scale of the y‐axis. 
        Chart “A” shows 79.5≤ y ≤81.1, with each division being equal to 0.2 
        Chart “B” shows 79  ≤ y ≤81.5, with each division being equal to 0.5 
        Chart “C” shows 0  ≤ y ≤80, with each division being equal to 20 
        Chart “D” shows 0  ≤ y ≤100, with each division being equal to 20 
 
Quite  dramatically  charts  “A”  and  “B”  emphasize  the  differences  between  L  and  R, 
whilst charts “C” and “D” seem to imply the difference is almost nonexistent. 


                                                 29
Ethics, politics and “getting your own way” 

But which is the correct way to display the data? 
 
At this point, those of you reading this who find the whole concept of data and analysis 
abhorrent will be likely thinking “that’s why I hate doing all this stuff” – “see I was right, 
its way beyond me”, and the most insightful “It’s bloody confusing!” 
 
Oddly for a book aimed at using statistics we are going to tend to agree with the last 
statement. 
 
For the four charts shown, there is no “right” answer – heck, there’s not even a “best” 
answer.  
 
The  surprising  thing  (and  this  is  what  causes  the  data  adverse  to  shiver  with 
indecision) is that it’s entirely up to you and you can choose the one that makes your 
case the strongest. 
 
Say,  I  had  presumed  that  there  was  a  L/R  split  in  data  and  analyzed  the  results  –  I 
would choose chart “A” or “B” to represent my results as they clearly demand taking 
the  L/R  split  seriously.    Had  I  on  the  other  hand  assumed  that  there  would  be  no 
difference, I would choose “C” or “D” as it backs up my case.  Both are strictly “correct” 
but I have subtly manipulated the presentation of data to support my case. 
 
 
The  whole  point  is  that  our  preconceptions  will  (often  subconsciously)  guide  us 
through the data visualization and analysis process.  We will change what we do to 
support our personal agenda – however careful we are. 




                                                30
 

Call to action 

    1. What did your bar chart look like?  Which of my examples was it closest to? 
          
    2. As  part  of  the  self  evaluation  and  action  planning  process  you  will  have 
         certainly  either  constructed  or  interpreted  charts  showing  results  –  often 
         segmented  into  different  groups.    Those  groups  will  have  likely  shown  a 
         difference.    Have  you  presented  data  to  SLT  by  using  either  the  default  or 
         custom scales – to “make your point clearer”? 
 
What we’ve just demonstrated is that the apparent importance of differences can be 
manipulated by just how you construct your charts. 
 
    3. How have you constructed charts for last year’s examination analysis meeting 
         with your SLT?  Have you emphasized or played down an effect to influence a 
         decision or opinion? 
          
          
However  well  minded  your  intentions,  I  suspect  that  you  will  have  exerted  some 
“influence”  on  the  data  –  even  if  it  was  just  by  using  the  default  settings  in  Excel  – 
which in this case seem to imply that there is a huge difference between L and R. 
 




                                                   31
 

How big an effect / difference is “big enough” to matter? 

To try and resolve some of these issues just raised, let’s go back to the data for “L” and 
“R” and construct a type of “modified” bar chart6, where we are combining the discrete 
data of “L” and “R” on the x‐axis, with a continuous y‐axis showing the “score”: 
 
 
 
                                                          Point Plot of Score vs Hand
  
                             84
 
                             83
                             82
                             81
                             80
                     Score




                             79

                             78

                             77

                             76
 
                             75
                                                         L                              R
                                                                    Left / Right

 
 
You see two “columns” of data, one for L and one for R that is comprised of a series of 
“o” points corresponding to each value.  Superimposed on the chart is a “” showing 
the mean for L and mean of R, with a line connecting each mean. 
 
At  this  point,  as  was  demonstrated,  had  the  data  been  displayed  as  a  bar  chart,  you 
would  have  shown  that  “L”  outperforms  “R”  and  depending  on  the  scale  you  used, 
could have either emphasized or downplayed the results. 




                                                            
6
      This  chart  was  produced  in  Minitab,  by  tweaking  the  “box  plot”  chart  –  a  great  statistical  analysis 
software package, but similar can be achieved with MSExcel or plotted straight onto graph paper 


                                                                      32
 

Extra information in a “modified” bar chart 

What this chart clearly shows is the spread of data for each segment.  You can see that 
the entire L data sits within the R data. 
 
        The range of the R data is more than the L data 
        There are no values of L that are higher than R 
        There are low values of R, lower than any of the L data 
 
What can be concluded from this chart, is that whilst the means are different, with L 
being higher than R, the spread of the data and the low values of R have influenced the 
mean value. 
 
What if those learners with the lowest right hand score just happened  to be the SEN 
learners  in  the  class?    Or,  what  if  those  lowest  R  scores  correspond  to  learners  who 
have been long term sick, incomers to school, EAL learners? 
 
 
 

Call to Action 

    1. Find a data set that you can segment into two (boy / girl splits work well and 
         are  a  constant  political/educational  debate).  You  need  the  actual  score  for  a 
         class, broken down into learners / gender. 
          
    2. Plot  the  scores  as  a  modified  bar  chart,  one  column  for  each  segment  (boy  / 
         girl) 
          
    3. What does this show you for your data? 
 
 
 
 
 


                                                 33
Looking at a whole cohort 



                              Average points score vs sex
             900

             800

             700

             600

             500
    POINTS




             400

             300

             200

             100

              0
                               F                                       M
                                                   Sex

 
The figure above, shows 2010 data for the average point score for a secondary school, 
split by sex.  As before, the line joins the means. 
 
The chart shows that girls have a higher average points score to boys (as the line slopes 
down, from left to right) 
 
From  analysis  of  the  means,  the  following  was  presented  to  SLT  for  the  annual  exam 
analysis meeting: 
 
 
                                    Average Points Score 
 
                                    Boy                  443 
 
                                    Girl                 406 
 
 
From the mean analysis, it appears that there is a real and big difference between the 
boy and girl average point scores. 


                                              34
 
The modified bar char starts to add more meaning: 
 
       The spread or ranges of the boy data is more than the girl data 
       The boy data has far more lower scores than the girls 
       The girl data has the highest performing students. 
 

Preconceptions again 

Again whilst sex is a convenient (and presumptuous) way of explaining difference – and 
indeed  the  means  substantiate  a  conclusion,  might  it  just  be  that  the  lowest  scoring 
learners  (who  happen  to  be  boys)  also  happen  to  be  the  EAL  students?    Might  it  be 
equally true that the highest performing girls receive tuition outside of school? 
 
We come back to the question:  
 
How big an effect / difference is “big enough” to matter? 
 
and we add: 
 
How do we tell what the real cause of something is? 
 




                                                35
 

Conclusions 

We have demonstrated how the mean as a point statistic is a blunt instrument in data 
analysis, and can lead to spurious conclusions 
 
Our  own  preconceptions  about  “what’s  likely”  to  make  a  difference  (gender)  will 
influence how to visual and analyze data. 
 
How  we  can  (often  unwillingly)  influence  /  bias  perception  with  the  way  what  we 
represent data. 
 
The use of a modified bar chart can begin to shed more light on the data and allow us 
to draw safer conclusions. 
 
In  the  next  chapter  we  will  begin  to  quantify  differences  to  allow  us  to  make  firmer, 
evidence based data analysis. 
 




                                                36
Chapter 3 

Comparative statistics 
 
Over  the  previous  two  chapters  we’ve  been  talking  about  the  mean  of  data  being  a 
poor  summary  tool  and  incomplete  when  used  to  compare  two  segments  of  data. 
We’ve shown how we can draw a chart to help illustrate the difference between means 
and how, by tweaking the scales of bar charts, you can magnify or minimize apparent 
differences.  Ultimately, all of these techniques are qualitative and assessing whether 
or not data sets are different has been a matter of choice. 
 
Whilst this might be satisfactory when deciding what the most popular games console 
is,  surely  we  can  apply  more  forethought  over  decisions  that  are  likely  to  lead  to 
profound implications to the education of young people. 
 
What  we  are  looking  for  is  a  way  to  quantify  how  different  sets  of  data  are,  and  an 
agreed  upon  set  of  standards  for  assessing  whether  or  not  a  measured  difference  is 
significant – hence, if the difference is significant it demands attention and solution. 
 

What does significant mean? 

It’s important at this point to clarify that a difference is statistically significant if the 
observed difference is greater than can be accounted for by random error alone. 
 

T‐tests and p values 

For  the  professional  statistician  there  are  a  number  of  measures  that  can  be  used  to 
assess the significance of measurements being different.  If we intended to compare a 
response  to  one  factor  only  (say  gender),  we  would  use  the  t‐test,  which  returns  a 
probability  that  the  difference  between  the  data  sets  cannot  be  distinguished  from 
random occurrences or accounted for by other factors.   
 



                                                 37
That mouthful (presented for statistical correctness) can be reduced to: 
 
The probability (%) that the data sets are not really different.  This is often referred to 
as the p value, and is either a decimal in the range 0.000 to 1.000 or a percentage.  The 
higher the p value, the less sure we are that the data sets are different. 
 
For example: 
 
        If p=0.000 or 0% we would have zero concern that the means were the same.  
         
        Or put the other way, we would be totally certain that the means are different.  
        We would be (1‐p) or 100% confident that the means were different. 
 
        If  p=0.001  or  0.1%,  we  would  be  slightly  concerned  and  not  totally  confident 
        that the means were different.  We would be (1‐p) or 99.9% confident that the 
        means are different. 
 
        If  p=0.005  or  0.5%,  we  would  be  more  concerned  that  the  means  were  not 
        different – We would be (1‐p) or 99.5% confident that the means are different. 
 
        If  p=0.10  or  10%,  we  would  be  quite  concerned  that  the  means  were  not 
        different.  We would be (1‐p) or 90% confident that the means are different. 
 
        If p=0.50 or 50%, we would be totally unsure and (1‐p) = 50% would show that 
        it was 50/50 that the means are different.   
 
Consider the following question – if you wanted me to invest £1,000,000 in your idea to 
cure cancer, and you had tested it against a placebo, what value of p would you accept 
as sensible evidence for “proving” your cure worked? 
 
       Would you accept p=0.10 or only 90% sure that your cure worked? 
       Would you accept p=0.005 or p=0.001? 
 
Statisticians  agree  that  a  p  value  of  0.005  or  less  is  needed  for  “proof”  that  a 
difference is real and hence defined as significant. 

                                              38
 
         P  values  in  the  range  p=0.01  to  p=0.006  show  increasing  evidence  that  a 
         difference might be real and probably warrants further analysis 
 
         P values in the range p=0.05 to 0.01 show a hint that there is a real difference.  
          
         At  p=0.05,  we  would  be  95%  sure  there  is  a  real  difference,  or  there’s  a  5% 
         chance that the means are actually the same.  This p=0.05 value corresponds 
         to  the  limit  of  “significance”  –  a  p‐value  of  p=0.05  or  less  indicates 
         significance of a difference between two levels of a factor. 
 
         P  values  greater  than  p=0.05  are  rejected  are  we  are  less  than  95%  sure  the 
         data sets are different. 
 
 
This  might  sound  draconian,  but  these  levels  of  significance  are  used  by  drug 
companies to “prove” a cure works, by the courts and police to convict those accused 
of  crimes  and  by  all  serious  scientists  trying  to  prove  that  A  caused  B  or  C  worked 
better than D – so if it works for them, it should work for us.  




                                                 39
 

Calculating significance using Excel 

You can use Excel to calculate the t‐test p values.  The data however does need to be 
laid out in a particular manner: From our previous left / right handed example: 
 
                               Student  L / R Hand  Score
                                  A            R          80 
                                  B            R          78 
                                  C            R          82 
                                  D            R          84 
                                  E            R          76 
                                  F            L          82 
                                  G            R          81 
                                  H            L          79 
                                   I           L          79 
                                   J           R          81 
                                  K            L          84 
                                  L            R          76 
                                  M            R          81 
                                  N            R          78 
 
 
For  Excel  to  compute  t‐test,  we  need  to  have  each  response  corresponding  to  a 
particular level of a factor in a different  column.  In this case,  the data for left hand in 
a different column to the data for right hand, so some manipulation is needed: 
 




                                             40
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
In this screen, data for R has been placed in C2 : C11, whilst data for L has been placed 
in D2: D5. 
 

Excel command for T‐testing 

The formula for Excel to calculate t‐test is TTEST(range 1, range 2, tails, type) – which 
returns the p value as seen in D13 above. 
 
       Range 1 and range 2 corresponds to the data sets. 
       Tails can be “1” or “2” – corresponding to the shape of the distribution.  For us 
        using data that can be equally distributed around a mean, we will always pick 
        “2” 
       Type  can  be  “1”,  “2”  or  “3”  –  corresponding  to  “paired”  or  “unpaired”  data.  
        The difference between these is quite involved and difficult to explain briefly.  
        Its sufficient to say that given the data that we are analysing, we will always 
        choose “3” 




                                               41
The p value of 0.414 indicates a 41.4% chance that the means are actually the same.  
Or  as  we  discussed  previously,  a  1‐p  or  58.6%  chance  that  the  means  are  different.  
(Remember what we are talking about here – this almost represents a 50/50 case – 
that the data is different OR not) 
 
This  is  well  above  the  value  of  statistical  significance  (p=0.05)  and  the  p‐value 
demands that we treat the means of these data sets as “not different”. 
 
Contrast the value of a numerical value to the previous charts we created: 
 




                                                                                                         
 
Whilst  we  might  have  concluded  that  the  means  were  the  same  or  “not  likely  to  be 
different”,  clearly  this  was  open  to  interpretation  /  bias  and  was  left  to  my  decision 
over how we drew the charts. 
 
Now we have a numerical value to assess the just how different a difference actually 
is. 
 




                                                42
 

Call to action 

    1. Revisit the data you collected previously. 
 
    2. For  the  factors  that  you  were  considering,  put  one  value  of  the  response 
        corresponding to one level of a factor (boy) in one column and the other level 
        (girl) into another column. 
         
    3. Calculate the TTEST value, using the ranges for the  data, “2” for the tails and 
        “3” for the type. 
         
    4. What is the p value? 
         
    5. Does  this  show  a  significant  difference  between  the  data  sets  or  do  you 
        conclude that they are the same? 
         
    6. Does this disagree with any analysis you previously undertook?  
         
    7. Next  time you split a data set into two groups, calculate a t‐test to see if the 
        means really are different. 
 




                                             43
 

Conclusions 

 
In  this  chapter  we  have  introduced  the  concept  of  calculating  a  value  that  shows 
whether  or  not  the  differences  between  two  means  is  caused  by  the  factors  being 
measured or could be down to random chance or some other, non measured factors. 
 
We  introduced  the  concept  of  the  p‐value,  which  corresponds  to  a  probability  or 
percentage that the difference between means is real or just down to chance. 
 
P values less than p=0.001 show a 99.9% chance that the means really are different and 
the factor you are measuring is responsible 
 
P  values  of  p=0.05  are  considered  the  critical  value  and  correspond  to  a  95%  chance 
that the factor you are measuring is responsible. 
 
P  values  greater  than  p=0.05  are  rejected  as  we  are  less  than  95%  certain  that  the 
factor being measured is responsible. 
 
The  t‐test  can  be  calculated  in  Excel  with  the  TTEST(range  1,  range  2,  tails,  type) 
formula entered into a cell.  Tails is normally “2” and type “3” 
 
 
In the next chapter we’ll look at a more useful test that allows you to look at factors at 
more than two levels, such as previous primary school. 
 




                                               44
Chapter 4 

Factors with multiple levels. 
 
So far we we’ve looked at assessing responses against factors that exist in two levels – 
splitting data sets by boy/girl, looking at left or right handed, free school meals or not.  
To process a t‐test in Excel required the data to be laid out in a specific manner, but did 
result in a quantifiable measure of the difference between means. 
 

Multi level factors 

But what about factors that have multiple levels – such as previous primary school?  Or 
factors that are a continuous in nature, such as reading or spelling age?  Simply put, the 
t‐test doesn’t work for factors in more than two levels.  
 

Combine levels to make a binary solution 

The first and possibly the simplest solution is to re‐code levels into a binary set – say by 
grouping reading age into 10 ≤ x ≤ 12 and 12 < x ≤ 14  and then perform a t‐test.   
 
It  doesn’t  matter  what  we  call  these  levels      ‐  “1”  and  “2”  or  “Low”  and  “High”  are 
traditionally used. 
 
Once we have the factor levels, we lay out the data as we did before in Excel, with one 
column for each factor level. 
 
In the following example, we have coded reading age using this scheme: 
 
                               8 ≤ x ≤ 12  = 1 and x > 12 = 2 
 
 




                                                  45
 
 
If we take the means of the bins, we conclude: 
 
                                        Bin         Mean 
                                        "1"         449 
                                        "2"         492 
 
 
Surely  a  43  point  difference  between  the  average  points  score  for  the  two  different  
reading age “bins” represents something that we must take seriously?   




                                               46
Let’s look at the data: 
 




                                                                              
 
Looks encouraging, that difference of 43 surely looks impressive and stands out. 
 
Remember what we said about scales?  If we draw the same chart on axes starting at 0: 
 




                                                                              
 
Now,  the  difference  between  the  two  groups  looks  less  impressive  than  before  – 
maybe they’re not that different. 


                                            47
 

Calculating t‐test for “binned” data 

 
As before, let’s reorganize the data and get Excel to calculate the t‐test. 




                                                                                     
 
The t‐test of 0.1987 indicates a 19.87, say 20% chance that the means are actually the 
same and there is no difference between the reading age bins.  Put another way, there 
is  a  1‐p  or  nearly  80%  chance  that  the  means  are  actually  different,  and  we  cannot 
conclude that the factor we are assessing is solely responsible for the difference. 
 
Now 80% sounds positive – but remember we agreed that p=0.05 was the upper limit, 
above  which  we  cannot  be  certain  that  the  factor  is  causing  the  difference  in  the 
response. 
 


                                               48
Limits of the t‐test 

I know that sounds like a bunch of statistical waffle, but the wording is important.   The 
t‐test  does  not  rule  out  reading  age  having  an  effect  on  points  score,  but  the  low 
significance of p=0.1987, points to some other factor either jointly being responsible or 
(as is likely) more significant in explaining the difference between the data. 
 
In  our  case,  it  means  we  should  keep  analyzing  the  data  to  find  a  more  fundamental 
difference. 
 
As before, let’s plot a modified bar chart for the bins “1” and “2”, joining the means for 
each level.  In this case, it proves a particularly useful chart as it clearly shows that the 
mean for level “2” of reading age is pulled upward by the three high points score. 
 

                             Boxplot of Points Score vs Re-coded
                       650

                       600

                       550
        Points Score




                       500

                       450

                       400

                       350

                       300
                                 1                                  2
                                               Re-coded
                                                                                            
 
 
 
 
 
 
 


                                                49
Multi level factors 

We can use the same idea of binning‐up factor levels to ease analysis of other factors – 
such as attendance data for example.   
 
However, what if we don’t want to combine factors into just two levels?  In the case of 
attendance data, we might want: 
 
              ‐1             =              less 80 
              0              =              80 to 89.99 
              1              =              90‐ 94.99 
              2              =              95+ 
 
 
We can’t use the t‐test as it only works to discriminate between factors that are in two 
levels. We need a different statistical tool – analysis of variance. 

 

Analysis of variance 
You’ve arrived at the point in the statistics journey where you are about to leave the 
“core”  functions  of  Excel  behind.    Whilst  it’s  true  that  you  can  get  Excel  to  calculate 
analysis  of  variance,  it’s  not  an  easy  process,  the  preparation  of  the  data  can  be 
confusing and the results leave a lot to be desired. 
 
At this point I strongly suggest that you get hold of a copy of Minitab7 or download the 
excellent  Daniels  XL  Toolbox8  –  a  free  add‐in  to  Excel  that  will  enhance  its  native 
statistics capability.   
 
However, even Daniels XL Toolbox will run out of steam in the next chapter, so maybe 
it’s time to break the Excel apron strings ‐ ;‐) 

                                                            
7
     Or alternative statistics package.  See the preface to this book for how to obtain Minitab for a reasonable 
price. 
8
     http://xltoolbox.sourceforge.net/ 


                                                               50
 

Does attendance affect attainment? 

Anyways,  let’s  push  on  and  look  at  a  continuous  variable,  attendance  and  try  and 
answer  the  questions  –  “Does  attendance  affect  attainment”.    Received  wisdom  is, 
“surely  yes,  attendance  affects  attainment  and  the  more  you  attend  the  higher  the 
attainment” – but ask yourself whether you’ve actually tested this “wisdom”. 
 
As we have two data sets that are continuous, we can get a feel for what’s going on by 
plotting a traditional scatter graph of attendance (x) against points score (y) 
 
 




                                                                                                  
 
 
Does that help?  Is there a link between attendance and attainment? 




                                              51
 

Fitting a trend line to Excel data 

Excel  allows  us  to  fit  a  line  between  the  data  points  that  “best”  represents  the  data.  
How well that line fits is shown by the R2 value – the close it is to 1, the better the fit, 
with anything above 0.8 as indicating a “good” fit to the data. 
 
Create a scatter graph as normal.  Once created, right click on a data point to bring up 
the context menu: 
 
 
 
 
 
 
 
 
 
 
Select “Add Trendline”. 
 
From the next context menu, you can choose what kind of line to fit – in this case we 
are looking for a straight line, so choose “linear”: 
 


                                                              
 
Leave most of the settings to the default, but at the bottom, before you click the CLOSE 
button, put a check as indicated: 
 


                                                                      
 
 



                                                 52
The full context menu for adding a trend line to an Excel chart: 
 
 




                                                                     
 
 
 
 
 



                                            53
From our data, the following linear trend line is fitted. 
 




                                                                                                   
 
 

Using R2 to check for “goodness” of fit 

The R2 value of 0.0093 indicates that the line does not represent the data well – in fact 
anything below 0.80 is regarded as “poor”.  
 
In fact when R2 = 0, the line fits the data no better than a horizontal line drawn through 
the mean “y” value. 
 
The closer R2 is to 1, the better we can use the line and its equation to predict values – 
in  this  case,  we  if  R2=1  we  could  100%  predict  a  points  score  from  the  attendance.  
Clearly this is not the case for our data. 
 




                                               54
So does attendance matter? 
 
Lets bin up the attendance figures as previously agreed: 
 
        ‐1        =      less 80 
        0         =      80 to 89.99 
        1         =      90‐ 94.99 
        2         =      95+ 
 
Sample of the original data and “binned”  or “coded” figures. 
 
      Attendance        Coded         Points     Attendance   Coded    Points 
         90.35            1            479           98.07       2      548 
         91.32            1            350           100         2      440 
          100             2            440           81.35       0      413 
         99.36            2            597           76.53       ‐1     695 
         76.85           ‐1            314           95.82       2      752 
         98.07            2            698           89.71       0      502 
          100             2            440           93.25       1      834 
         88.42            0            614           78.14       ‐1     389 
         95.18            2            566           84.24       0      290 
         96.14            2            631           59.81       ‐1     269 
          100             2            440           85.85       0      425 
          100             2            284           95.18       2      292 
         96.14            2            469           75.56       ‐1     410 
         98.71            2            342           100         2      262 
          100             2            400           63.02       ‐1     538 
         89.97            0            426           96.78       2      612 
         94.21            1            626           100         2      80 
         94.21            1            552           87.14       0      158 
         88.75            0            467           92.93       1      494 
         92.93            1            519           89.71       0      509 
 
 


                                                55
Let’s  calculate  the  means  of  each  bin  to  assess  if  there  is  any  variation  between 
attendance figures: 
 
 
                                    Binned       Mean Points 
                                       ‐1            435.8 
                                       0             422.7 
                                       1             550.6 
                                       2             460.7 
 
What the mean analysis shows, is a difference of 25 points in going from the lowest sub 
80%  attendance  to  the  highest  95%+  attendance.    But,  is  this  a  big  enough  effect  to 
conclude that attendance matters? 
 
 
If we plot the binned attendance against points score, we can see that “something” is 
going on, and the connected means show some variation 
 

                   Modified Bar Chart of Points vs Binned Attendance
             900

             800

             700

             600

             500
    Points




             400

             300

             200

             100

              0
                     -1                     0               1                     2
                                            Binned attendance
                                                                                                   
 

                                                56
 
At this point, the observant reader might ask “Doesn’t all  this depend on  the size  of 
the bins?” – Let’s see.... 
 
If we re‐bin the data, into ‐1 (less than 90) and +1 (90 and greater) we find; 
 
                                      Binned    Mean Points 
                                        ‐1            427.9 
                                        1             486.9 
 
This  time,  there’s  nearly  60  points  of  difference  between  the  lowest  and  highest 
attendance – surely this is significant? 
 
At this point we’ve reduced the factors to a binary split, so we can use the t‐test to see 
if the difference between the means is real and significant. 
 
The preparation of the data is left as an exercise for the reader, but by binning into ‐1 
and  +1,  separating  the  data  into  columns  and  running  the  Excel  TTEST  function,  we 
obtain a value of p=0.243. 
 
This  p  value  is  well  above  the  value  of  p=0.05  for  us  to  consider  the  means  as 
statistically  different  and  we  conclude,  that  there  is  no  statistical  difference  between 
the average points score, when we consider the factor “attendance”. 
 
However,  this  is  not  where  we  wanted  to  be  –  we’ve  reduced  a  factor  to  a  binary 
split.   
 
We’re going to stick with the original binned data, as they correspond to how we track 
learners in school: 
 
            ‐1      =      less 80 
            0       =      80 to 89.99 
            1       =      90‐ 94.99 
            2       =      95+ 
 

                                                 57
You’ll  need  Daniels  XL  toolbox  or  Minitab  at  this  stage.    Download  a  copy  for  MS 
Excel from: http://xltoolbox.sourceforge.net/ 
 

One way Analysis of Variance (ANOVA) 

The  statistical  test  that  we’re  going  to  perform  is  called  the  One‐way  analysis  of 
variance or as its usually referred to ANOVA.   
 
ANOVA  is  similar  in  function  (but  mathematically  much  more  complex)  to  the  t‐test, 
except ANOVA can test whether or not two or more means are different.  ANOVA tests 
produce a p value which can be interpreted in the same manner as the t‐test. 
 
This is ideal for our case – ANOVA will reduce our problem of determining if attendance 
matters to the familiar task of interpreting a p‐value. 
 
As we’re going to use Daniels XL toolbox or Minitab, data this time can be laid out as 
you would receive it from your examinations officer, without further processing.   
                                        
                                       That  is  a  list  of  information  with  headings  across 
                                       the top – no preparation will be required. 
                                        
                                       <<<  Your data will be laid out like this 
                                        
                                       With one row per pupil – much easier to deal with 
                                       than before. 
                                        
                                       From the Add‐In menu in Excel, select XL Toolbox, 
                                       and navigate to the Statistics  > ANOVA  menu  
                                        
                                       From the One‐Way Analysis of Variance (ANOVA) 
                                       menu  that  appears,  select  the  ranges  for  the 
                                       input data. 
                                        




                                              58
 

             Click in the box once and then drag down 
             over the range of the bins – not including 
             the heading 
             Click in the box once and then drag down 
             over the range of the data – not including 
             the heading 
 




                                                


            59
You should find that the numerical range of each is the same – in this case, $2 to $41 – 
but your data might be different, and they don’t need to the same size. 
 
Once the ranges are set up, select Run ANOVA. 
 
 




                                                                                              
 
This dialogue shows a number of things, but the most important for us are: 
 
       The bin names (‐1,0, 1 and 2), their counts & means 
       ANOVA Results p‐value, which allows us to comment on the significance. 
 
In  our  case,  P=0.41370,  which  is  well  above  P=0.05,  indicating  that  there  is  no 
statistical  significance  difference  between  the  means  and  any  differences  cannot  be 
ascribed to the attendance levels alone. 


                                             60
Non numeric multi level factors 

We  started  this  text  by  looking  at  gender  and  handedness,  both  were  binary  non 
numeric factors (either one value or another).  Some factors under consideration can 
be non numerical and text based – originating primary school9 for example. 
 
Our fictional secondary school has 4 feeder primaries: Elm Tree, Everymans, Oldberry  
and St Judes.   
 
The average points score at the year of Year 11 for a group of learners is: 
Primary                 Points Primary                         Points Primary      Points Primary       Points 
St Judes                314             St Judes               698    Elm Tree     509    St Judes      494 
St Judes                695             St Judes               440    St Judes     614    Elm Tree      440 
St Judes                389             St Judes               566    St Judes     426    St Judes      597 
Elm Tree                269             Oldberry               631    St Judes     467    St Judes      698 
St Judes                410             Oldberry               440    Elm Tree     413    St Judes      440 
Elm Tree                400             Everymans   501               St Judes     502    Everymans     566 
St Judes                314             Oldberry               469    Oldberry     290    Everymans     631 
St Judes                614             St Judes               342    Elm Tree     425    St Judes      440 
St Judes                426             Oldberry               400    Elm Tree     158    St Judes      284 
St Judes                467             Oldberry               626    St Judes     509    Oldberry      469 
Oldberry                413             Oldberry               552    St Judes     479    St Judes      342 
Everymans   695                         Oldberry               519    Everymans  490      St Judes      400 
Everymans   502                         St Judes               548    St Judes     626    St Judes      548 
St Judes                389             Oldberry               440    Elm Tree     401    Oldberry      440 
St Judes                290             Everymans   752               Oldberry     519    Oldberry      752 
St Judes                269             Everymans   834               St Judes     834    Oldberry      292 
Elm Tree                425             St Judes               292    Oldberry     494    Oldberry      262 
Everymans   410                         Oldberry               262    Oldberry     350    Oldberry      612 
St Judes                538             Elm Tree               612    Oldberry     440    Elm Tree      80 
St Judes                158             Everymans   540               Oldberry     597                    

                                                            
9
     At this point, I need to be clear – I’m not suggesting a blame culture between Primary and Secondary, 
more, the fact that we have this data in secondary and it can be instructive to see if and where a response 
can be split by a factor. 


                                                                      61
Firing  up Excel and the XL Toolbox we  place  the data in  two columns, one for feeder 
primary  and  the  other  for  points  score.    Navigating  through  XL  Toolbox  we  run  an 
ANOVA: 
 




                                                                                               
 
What this ANOVA shows us, with a P value of p=0.0089 is that feeder primary is more 
than 99% certain to have an effect upon the average points score at the end of year 11.   
 
What it doesn’t show is where this variation actually is.  Are all the schools different, or 
just one school different from the rest? 
 




                                             62
Let’s plot a modified bar chart to see: 
 

                         Modified Bar Chart of Points vs Primary
             900

             800

             700

             600

             500
    Points




             400

             300

             200

             100

              0
                   Elm Tree          Everymans             Oldberry   St Judes
                                                 Primary
                                                                                      
 
The “difference” is likely to be between Elm Tree and Everymans.  But, being the good 
statistician we now want to ask more rounded questions: 
 
          Is Everymans different to Oldberry & St Judes?   
          Is Elm Tree different to Oldberry? 
 
 
Fortunately, tests exist to quantify this difference. 




                                                 63
 
 
If the p‐value of the ANOVA indicates a statistically significant difference, (indicated by 
* or ** next to the value), an additional tab at the top of the window is active.  Select 
this tab: 
 


                                                               
 
The window that appears allows you to test for significance between the levels of the 
factors previously analyzed for the ANOVA test.   
 
Leaving the default “Bonferroni‐Holm” (named after the statisticians who devised the 
test)  you  can  click  on  each  level  of  factor  in  the  “Compare”  column  and  look  how 
different  that  is  to  other  levels  –  importantly  for  us,  the  dialogue  displays  the 
significance. 
 

                                              64
On this screen, click on “Produce report”, which will summarise this test in an easy to 
read table. 
 




                                                                                                
    Posthoc test: Bonferroni‐Holm 
    Group 1           Group 2                Critical         P                Significant? 
    Elm Tree          Everymans              0.008333333 0.002662327  Yes 
    Oldberry          Everymans              0.01             0.017707646  No 
    St Judes          Everymans              0.0125           0.01989173       No 
    St Judes          Elm Tree               0.016666667 0.074365767  No 
    Elm Tree          Oldberry               0.025            0.082440719  No 
    St Judes          Oldberry               0.05             0.96789046       No 
 
(Here, the significance of the P value is slightly different than before – if the value of p 
is less than the displayed “critical value”, the difference is significant. 
 


                                               65
We can see that for our data, only the Elm Tree – Everymans difference is significant, 
        whilst the Oldberry, and St Judes to Everymans is approaching significant.   
         
        Whilst our modified bar chart hinted at this before, we now have a hard and fast figure 
        that describes the difference between the primary schools. 
         
         
         

        Call to action 

         
        Now that we’ve got some real statistical tests in our tool kit, go and find your master 
        data set for your school / department / class. 
         
        Most  schools  will  have  spreadsheets  of  such  data,  and  they  probably  look  something 
        like this: 
         
Name           Sex  SEN  FSM CATs  Att%            Feeder     Read  Maths English  Science  Overall Points
Adams, Jon  M         NA        N     119    90.35  St Judes 14.02 30            35        40         440 
         
        See if you can answer the following questions from your own data: 
         
            1. Are the overall results for your school different for gender?  Is this a significant 
                 difference ? 
                      a. (TTEST and P value) 
                      b. Repeat the analysis for free school meals (FSM) 
                  
            2. How  well  does  CATS,  (or  other  base  line  data),  attendance  or  reading  age 
                 predict Maths, English, Science (insert subjects that you have data for)? 
                      a. (Scatter graph for continuous data and fit a trend line.  Check R2 value) 
                             
            3. Create  some  binned  data  (CATs,  Feeder  School)  and  use  ANOVA  to  check  the 
                 significance of a multi leveled factor. 
                      a. Use  Bonferroni‐Holm  to  check  for  differences  between  levels  of  a 
                            factor 

                                                      66
Pause for breath …….. 

 
At  this  point,  you’ve  come  a  long  way.    Instead  of  using  the  means  of  responses  to 
describe (possibly erroneous) differences between the effects of  factor levels, you’ve 
just used some real statistical tests (TTEST and ANOVA) to provide you with evidence 
that is more than just a “hunch”. 
 

Questions to reflect on 

    1. Did any of your analysis contradict your preconceptions?   
          
    2. Did  you  show  that  gender  was  statistically  significant  overall?    What  about 
         gender for Maths, English, Science? 
          
    3. Do  learners  from  any  of  your  feeder  primaries  perform  significantly  different 
         than learners from other?  Does this surprise you? 
 
 
This is the beauty of simple statistical tests – you can ask the “What if” questions and 
very quickly get an answer. 
 
 
But, and isn’t there always a but – from the factors listed how do you decide which is 
the most important and most significant in driving a response? 
 
             Name        Sex  SEN  FSM CATs Att%                Feeder      Read  Overall Points 
             Adams, Jon M       NA     N       119     90.35 St Judes 14.02  440 
 
 
And for that, we need yet another tool – this time, the final one we’ll introduce and the 
“most useful”, generic test available.  Say hello to the General Linear Model 




                                                67
 

Conclusions 

We’ve  covered  a  lot  of  ground  in  this  chapter.    Starting  with  the  t‐test  previously 
described we’ve looked at: 
 
Grouping  or  binning  factor  levels  to  allow  us  to  continue  to  use  the  t‐test  and  the 
familiar p value for significance 
 
How we can use Excel and trend lines to explore the relationship between continuous 
data. 
 
We looked at the R2 value and used it to decide how “well” a trend line matched the 
data.  R2 = 0.80 is the agreed upon limit, below this the fit is described as “poor”. 
 
How  continuous  data  can  also  be  binned  up  to  allow  t‐tests  to  differentiate  between 
binary leveled factors 
 
We’ve introduced the concept of One‐way analysis of variance (ANOVA), which allows 
us to test for significance between multi level factors. 
 
We  looked  at  extending  this  ANOVA  to  explore  differences  between  the  levels  of 
factors and how to assess the significance of these differences. 
 
We explored Daniels XL Toolbox, a free add‐in to Excel which makes calculating ANOVA 
much more straight forward. 




                                               68
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean
Beyond the Mean

Contenu connexe

En vedette

The Future in designing for the sex(es)
The Future in designing for the sex(es)The Future in designing for the sex(es)
The Future in designing for the sex(es)Cathy Wang
 
História em quadrinhos 6 c 17
História em quadrinhos 6 c 17História em quadrinhos 6 c 17
História em quadrinhos 6 c 17sansampa
 
Exposure Lecture 2014 - Tamil Language
Exposure Lecture 2014 - Tamil LanguageExposure Lecture 2014 - Tamil Language
Exposure Lecture 2014 - Tamil Languagemediaplaylab
 
ชื่อพันธสัญญาเดิม
ชื่อพันธสัญญาเดิมชื่อพันธสัญญาเดิม
ชื่อพันธสัญญาเดิมMontira Hokjaroen
 
IRL FTW! Organizing Meetups and WordCamps
IRL FTW! Organizing Meetups and WordCampsIRL FTW! Organizing Meetups and WordCamps
IRL FTW! Organizing Meetups and WordCampsAaron Hockley
 
Learning with Quest Atlantis in Singapore
Learning with Quest Atlantis in SingaporeLearning with Quest Atlantis in Singapore
Learning with Quest Atlantis in Singaporemediaplaylab
 
Looppa Cosmos
Looppa CosmosLooppa Cosmos
Looppa CosmosLooppa
 
Teaching disgrace using Second Life
Teaching disgrace using Second LifeTeaching disgrace using Second Life
Teaching disgrace using Second Lifemediaplaylab
 
Estabelecie nto letroca 15
Estabelecie nto   letroca 15Estabelecie nto   letroca 15
Estabelecie nto letroca 15sansampa
 
Sabedoria letroca 17
Sabedoria letroca 17Sabedoria letroca 17
Sabedoria letroca 17sansampa
 
The Ideals of the Reformation
The Ideals of the ReformationThe Ideals of the Reformation
The Ideals of the Reformationfreealan
 
A Timeline of Major Reform Events to 1964
A Timeline of Major Reform Events to 1964A Timeline of Major Reform Events to 1964
A Timeline of Major Reform Events to 1964freealan
 
A L BÚ M D E L P A R Q U E E C O LÓ G I C O
A L BÚ M  D E L  P A R Q U E  E C O LÓ G I C OA L BÚ M  D E L  P A R Q U E  E C O LÓ G I C O
A L BÚ M D E L P A R Q U E E C O LÓ G I C OBAT007
 
COE presentation April 2010
COE presentation April 2010COE presentation April 2010
COE presentation April 2010mediaplaylab
 
Solidariedade letroca 16
Solidariedade letroca 16Solidariedade letroca 16
Solidariedade letroca 16sansampa
 
Total Defence ''It's MY Turn'' as We Remember Dr Toh Chin Chye and his contri...
Total Defence ''It's MY Turn'' as We Remember Dr Toh Chin Chye and his contri...Total Defence ''It's MY Turn'' as We Remember Dr Toh Chin Chye and his contri...
Total Defence ''It's MY Turn'' as We Remember Dr Toh Chin Chye and his contri...mediaplaylab
 
Allyssen
AllyssenAllyssen
AllyssenLooppa
 

En vedette (20)

Synistema
SynistemaSynistema
Synistema
 
The Future in designing for the sex(es)
The Future in designing for the sex(es)The Future in designing for the sex(es)
The Future in designing for the sex(es)
 
História em quadrinhos 6 c 17
História em quadrinhos 6 c 17História em quadrinhos 6 c 17
História em quadrinhos 6 c 17
 
Exposure Lecture 2014 - Tamil Language
Exposure Lecture 2014 - Tamil LanguageExposure Lecture 2014 - Tamil Language
Exposure Lecture 2014 - Tamil Language
 
ชื่อพันธสัญญาเดิม
ชื่อพันธสัญญาเดิมชื่อพันธสัญญาเดิม
ชื่อพันธสัญญาเดิม
 
WTI - Recreational cycling and social media workshop slides
WTI - Recreational cycling and social media workshop slidesWTI - Recreational cycling and social media workshop slides
WTI - Recreational cycling and social media workshop slides
 
IRL FTW! Organizing Meetups and WordCamps
IRL FTW! Organizing Meetups and WordCampsIRL FTW! Organizing Meetups and WordCamps
IRL FTW! Organizing Meetups and WordCamps
 
Learning with Quest Atlantis in Singapore
Learning with Quest Atlantis in SingaporeLearning with Quest Atlantis in Singapore
Learning with Quest Atlantis in Singapore
 
Looppa Cosmos
Looppa CosmosLooppa Cosmos
Looppa Cosmos
 
Teaching disgrace using Second Life
Teaching disgrace using Second LifeTeaching disgrace using Second Life
Teaching disgrace using Second Life
 
Estabelecie nto letroca 15
Estabelecie nto   letroca 15Estabelecie nto   letroca 15
Estabelecie nto letroca 15
 
Singapore Lecture
Singapore LectureSingapore Lecture
Singapore Lecture
 
Sabedoria letroca 17
Sabedoria letroca 17Sabedoria letroca 17
Sabedoria letroca 17
 
The Ideals of the Reformation
The Ideals of the ReformationThe Ideals of the Reformation
The Ideals of the Reformation
 
A Timeline of Major Reform Events to 1964
A Timeline of Major Reform Events to 1964A Timeline of Major Reform Events to 1964
A Timeline of Major Reform Events to 1964
 
A L BÚ M D E L P A R Q U E E C O LÓ G I C O
A L BÚ M  D E L  P A R Q U E  E C O LÓ G I C OA L BÚ M  D E L  P A R Q U E  E C O LÓ G I C O
A L BÚ M D E L P A R Q U E E C O LÓ G I C O
 
COE presentation April 2010
COE presentation April 2010COE presentation April 2010
COE presentation April 2010
 
Solidariedade letroca 16
Solidariedade letroca 16Solidariedade letroca 16
Solidariedade letroca 16
 
Total Defence ''It's MY Turn'' as We Remember Dr Toh Chin Chye and his contri...
Total Defence ''It's MY Turn'' as We Remember Dr Toh Chin Chye and his contri...Total Defence ''It's MY Turn'' as We Remember Dr Toh Chin Chye and his contri...
Total Defence ''It's MY Turn'' as We Remember Dr Toh Chin Chye and his contri...
 
Allyssen
AllyssenAllyssen
Allyssen
 

Similaire à Beyond the Mean

Leadership style and perceived benefits of electronic data interchange for re...
Leadership style and perceived benefits of electronic data interchange for re...Leadership style and perceived benefits of electronic data interchange for re...
Leadership style and perceived benefits of electronic data interchange for re...rsd kol abundjani
 
Ibc biological assay development & validation 2011 gra presentation
Ibc biological assay development & validation 2011 gra presentationIbc biological assay development & validation 2011 gra presentation
Ibc biological assay development & validation 2011 gra presentationGreyRigge Associates Ltd
 
Boost Your Data Expertise - What's New in Minitab 19.2020.1
Boost Your Data Expertise -  What's New in Minitab 19.2020.1Boost Your Data Expertise -  What's New in Minitab 19.2020.1
Boost Your Data Expertise - What's New in Minitab 19.2020.1Minitab, LLC
 
Statit customqc overview[1]
Statit customqc overview[1]Statit customqc overview[1]
Statit customqc overview[1]Rana Daniyal
 
Interscience discovering knowledge in data an introduction to data mining
Interscience discovering knowledge in data   an introduction to data miningInterscience discovering knowledge in data   an introduction to data mining
Interscience discovering knowledge in data an introduction to data miningCludius
 
Causal Inference and Direct Effects
Causal Inference and Direct EffectsCausal Inference and Direct Effects
Causal Inference and Direct Effectsjouffe
 
Causal Inference and Direct Effects
Causal Inference and Direct EffectsCausal Inference and Direct Effects
Causal Inference and Direct EffectsBayesia USA
 
Learner Analytics: from Buzz to Strategic Role Academic Technologists
Learner Analytics:  from Buzz to Strategic Role Academic TechnologistsLearner Analytics:  from Buzz to Strategic Role Academic Technologists
Learner Analytics: from Buzz to Strategic Role Academic TechnologistsJohn Whitmer, Ed.D.
 
Boost Your Data Expertise with the Latest Release of Minitab Statistical Soft...
Boost Your Data Expertise with the Latest Release of Minitab Statistical Soft...Boost Your Data Expertise with the Latest Release of Minitab Statistical Soft...
Boost Your Data Expertise with the Latest Release of Minitab Statistical Soft...Minitab, LLC
 
The Science Of Business Improvement Condensed
The Science Of Business Improvement CondensedThe Science Of Business Improvement Condensed
The Science Of Business Improvement CondensedPatrick Ferguson
 
Can we predict the quality of spectrum-based fault localization?
Can we predict the quality of spectrum-based fault localization?Can we predict the quality of spectrum-based fault localization?
Can we predict the quality of spectrum-based fault localization?Lionel Briand
 
NAG software for the Actuarial Community (Sep. 2012)
NAG software for the Actuarial Community (Sep. 2012)NAG software for the Actuarial Community (Sep. 2012)
NAG software for the Actuarial Community (Sep. 2012)John Holden
 
A Mineknowledge case study: Analysis of Purchase Decision Survey, Electrical ...
A Mineknowledge case study: Analysis of Purchase Decision Survey, Electrical ...A Mineknowledge case study: Analysis of Purchase Decision Survey, Electrical ...
A Mineknowledge case study: Analysis of Purchase Decision Survey, Electrical ...mineknowledge
 

Similaire à Beyond the Mean (20)

Bebpa Nice 29 Sept 2011
Bebpa Nice 29 Sept 2011Bebpa Nice 29 Sept 2011
Bebpa Nice 29 Sept 2011
 
Leadership style and perceived benefits of electronic data interchange for re...
Leadership style and perceived benefits of electronic data interchange for re...Leadership style and perceived benefits of electronic data interchange for re...
Leadership style and perceived benefits of electronic data interchange for re...
 
Ibc biological assay development & validation 2011 gra presentation
Ibc biological assay development & validation 2011 gra presentationIbc biological assay development & validation 2011 gra presentation
Ibc biological assay development & validation 2011 gra presentation
 
Boost Your Data Expertise - What's New in Minitab 19.2020.1
Boost Your Data Expertise -  What's New in Minitab 19.2020.1Boost Your Data Expertise -  What's New in Minitab 19.2020.1
Boost Your Data Expertise - What's New in Minitab 19.2020.1
 
Statit customqc overview[1]
Statit customqc overview[1]Statit customqc overview[1]
Statit customqc overview[1]
 
Interscience discovering knowledge in data an introduction to data mining
Interscience discovering knowledge in data   an introduction to data miningInterscience discovering knowledge in data   an introduction to data mining
Interscience discovering knowledge in data an introduction to data mining
 
Causal Inference and Direct Effects
Causal Inference and Direct EffectsCausal Inference and Direct Effects
Causal Inference and Direct Effects
 
Causal Inference and Direct Effects
Causal Inference and Direct EffectsCausal Inference and Direct Effects
Causal Inference and Direct Effects
 
C D tutorial
C D tutorialC D tutorial
C D tutorial
 
Summer project
Summer projectSummer project
Summer project
 
Birdie Design Report
Birdie Design ReportBirdie Design Report
Birdie Design Report
 
Pmbok preparing for the pmp certification exam - 3 ed, 2005
Pmbok   preparing for the pmp certification exam - 3 ed, 2005Pmbok   preparing for the pmp certification exam - 3 ed, 2005
Pmbok preparing for the pmp certification exam - 3 ed, 2005
 
Learner Analytics: from Buzz to Strategic Role Academic Technologists
Learner Analytics:  from Buzz to Strategic Role Academic TechnologistsLearner Analytics:  from Buzz to Strategic Role Academic Technologists
Learner Analytics: from Buzz to Strategic Role Academic Technologists
 
Whitmer, Fernandes, Kodai CSU Chico Learner Analytics
Whitmer, Fernandes, Kodai CSU Chico Learner AnalyticsWhitmer, Fernandes, Kodai CSU Chico Learner Analytics
Whitmer, Fernandes, Kodai CSU Chico Learner Analytics
 
Boost Your Data Expertise with the Latest Release of Minitab Statistical Soft...
Boost Your Data Expertise with the Latest Release of Minitab Statistical Soft...Boost Your Data Expertise with the Latest Release of Minitab Statistical Soft...
Boost Your Data Expertise with the Latest Release of Minitab Statistical Soft...
 
The Science Of Business Improvement Condensed
The Science Of Business Improvement CondensedThe Science Of Business Improvement Condensed
The Science Of Business Improvement Condensed
 
Can we predict the quality of spectrum-based fault localization?
Can we predict the quality of spectrum-based fault localization?Can we predict the quality of spectrum-based fault localization?
Can we predict the quality of spectrum-based fault localization?
 
10 best practices in operational analytics
10 best practices in operational analytics 10 best practices in operational analytics
10 best practices in operational analytics
 
NAG software for the Actuarial Community (Sep. 2012)
NAG software for the Actuarial Community (Sep. 2012)NAG software for the Actuarial Community (Sep. 2012)
NAG software for the Actuarial Community (Sep. 2012)
 
A Mineknowledge case study: Analysis of Purchase Decision Survey, Electrical ...
A Mineknowledge case study: Analysis of Purchase Decision Survey, Electrical ...A Mineknowledge case study: Analysis of Purchase Decision Survey, Electrical ...
A Mineknowledge case study: Analysis of Purchase Decision Survey, Electrical ...
 

Dernier

Prescribed medication order and communication skills.pptx
Prescribed medication order and communication skills.pptxPrescribed medication order and communication skills.pptx
Prescribed medication order and communication skills.pptxraviapr7
 
Maximizing Impact_ Nonprofit Website Planning, Budgeting, and Design.pdf
Maximizing Impact_ Nonprofit Website Planning, Budgeting, and Design.pdfMaximizing Impact_ Nonprofit Website Planning, Budgeting, and Design.pdf
Maximizing Impact_ Nonprofit Website Planning, Budgeting, and Design.pdfTechSoup
 
How to Add Existing Field in One2Many Tree View in Odoo 17
How to Add Existing Field in One2Many Tree View in Odoo 17How to Add Existing Field in One2Many Tree View in Odoo 17
How to Add Existing Field in One2Many Tree View in Odoo 17Celine George
 
How to Use api.constrains ( ) in Odoo 17
How to Use api.constrains ( ) in Odoo 17How to Use api.constrains ( ) in Odoo 17
How to Use api.constrains ( ) in Odoo 17Celine George
 
The Stolen Bacillus by Herbert George Wells
The Stolen Bacillus by Herbert George WellsThe Stolen Bacillus by Herbert George Wells
The Stolen Bacillus by Herbert George WellsEugene Lysak
 
Patient Counselling. Definition of patient counseling; steps involved in pati...
Patient Counselling. Definition of patient counseling; steps involved in pati...Patient Counselling. Definition of patient counseling; steps involved in pati...
Patient Counselling. Definition of patient counseling; steps involved in pati...raviapr7
 
Human-AI Co-Creation of Worked Examples for Programming Classes
Human-AI Co-Creation of Worked Examples for Programming ClassesHuman-AI Co-Creation of Worked Examples for Programming Classes
Human-AI Co-Creation of Worked Examples for Programming ClassesMohammad Hassany
 
5 charts on South Africa as a source country for international student recrui...
5 charts on South Africa as a source country for international student recrui...5 charts on South Africa as a source country for international student recrui...
5 charts on South Africa as a source country for international student recrui...CaraSkikne1
 
Ultra structure and life cycle of Plasmodium.pptx
Ultra structure and life cycle of Plasmodium.pptxUltra structure and life cycle of Plasmodium.pptx
Ultra structure and life cycle of Plasmodium.pptxDr. Asif Anas
 
Benefits & Challenges of Inclusive Education
Benefits & Challenges of Inclusive EducationBenefits & Challenges of Inclusive Education
Benefits & Challenges of Inclusive EducationMJDuyan
 
HED Office Sohayok Exam Question Solution 2023.pdf
HED Office Sohayok Exam Question Solution 2023.pdfHED Office Sohayok Exam Question Solution 2023.pdf
HED Office Sohayok Exam Question Solution 2023.pdfMohonDas
 
CAULIFLOWER BREEDING 1 Parmar pptx
CAULIFLOWER BREEDING 1 Parmar pptxCAULIFLOWER BREEDING 1 Parmar pptx
CAULIFLOWER BREEDING 1 Parmar pptxSaurabhParmar42
 
Diploma in Nursing Admission Test Question Solution 2023.pdf
Diploma in Nursing Admission Test Question Solution 2023.pdfDiploma in Nursing Admission Test Question Solution 2023.pdf
Diploma in Nursing Admission Test Question Solution 2023.pdfMohonDas
 
How to Manage Cross-Selling in Odoo 17 Sales
How to Manage Cross-Selling in Odoo 17 SalesHow to Manage Cross-Selling in Odoo 17 Sales
How to Manage Cross-Selling in Odoo 17 SalesCeline George
 
Philosophy of Education and Educational Philosophy
Philosophy of Education  and Educational PhilosophyPhilosophy of Education  and Educational Philosophy
Philosophy of Education and Educational PhilosophyShuvankar Madhu
 
CapTechU Doctoral Presentation -March 2024 slides.pptx
CapTechU Doctoral Presentation -March 2024 slides.pptxCapTechU Doctoral Presentation -March 2024 slides.pptx
CapTechU Doctoral Presentation -March 2024 slides.pptxCapitolTechU
 
In - Vivo and In - Vitro Correlation.pptx
In - Vivo and In - Vitro Correlation.pptxIn - Vivo and In - Vitro Correlation.pptx
In - Vivo and In - Vitro Correlation.pptxAditiChauhan701637
 
2024.03.23 What do successful readers do - Sandy Millin for PARK.pptx
2024.03.23 What do successful readers do - Sandy Millin for PARK.pptx2024.03.23 What do successful readers do - Sandy Millin for PARK.pptx
2024.03.23 What do successful readers do - Sandy Millin for PARK.pptxSandy Millin
 
Practical Research 1 Lesson 9 Scope and delimitation.pptx
Practical Research 1 Lesson 9 Scope and delimitation.pptxPractical Research 1 Lesson 9 Scope and delimitation.pptx
Practical Research 1 Lesson 9 Scope and delimitation.pptxKatherine Villaluna
 

Dernier (20)

Prescribed medication order and communication skills.pptx
Prescribed medication order and communication skills.pptxPrescribed medication order and communication skills.pptx
Prescribed medication order and communication skills.pptx
 
Maximizing Impact_ Nonprofit Website Planning, Budgeting, and Design.pdf
Maximizing Impact_ Nonprofit Website Planning, Budgeting, and Design.pdfMaximizing Impact_ Nonprofit Website Planning, Budgeting, and Design.pdf
Maximizing Impact_ Nonprofit Website Planning, Budgeting, and Design.pdf
 
Personal Resilience in Project Management 2 - TV Edit 1a.pdf
Personal Resilience in Project Management 2 - TV Edit 1a.pdfPersonal Resilience in Project Management 2 - TV Edit 1a.pdf
Personal Resilience in Project Management 2 - TV Edit 1a.pdf
 
How to Add Existing Field in One2Many Tree View in Odoo 17
How to Add Existing Field in One2Many Tree View in Odoo 17How to Add Existing Field in One2Many Tree View in Odoo 17
How to Add Existing Field in One2Many Tree View in Odoo 17
 
How to Use api.constrains ( ) in Odoo 17
How to Use api.constrains ( ) in Odoo 17How to Use api.constrains ( ) in Odoo 17
How to Use api.constrains ( ) in Odoo 17
 
The Stolen Bacillus by Herbert George Wells
The Stolen Bacillus by Herbert George WellsThe Stolen Bacillus by Herbert George Wells
The Stolen Bacillus by Herbert George Wells
 
Patient Counselling. Definition of patient counseling; steps involved in pati...
Patient Counselling. Definition of patient counseling; steps involved in pati...Patient Counselling. Definition of patient counseling; steps involved in pati...
Patient Counselling. Definition of patient counseling; steps involved in pati...
 
Human-AI Co-Creation of Worked Examples for Programming Classes
Human-AI Co-Creation of Worked Examples for Programming ClassesHuman-AI Co-Creation of Worked Examples for Programming Classes
Human-AI Co-Creation of Worked Examples for Programming Classes
 
5 charts on South Africa as a source country for international student recrui...
5 charts on South Africa as a source country for international student recrui...5 charts on South Africa as a source country for international student recrui...
5 charts on South Africa as a source country for international student recrui...
 
Ultra structure and life cycle of Plasmodium.pptx
Ultra structure and life cycle of Plasmodium.pptxUltra structure and life cycle of Plasmodium.pptx
Ultra structure and life cycle of Plasmodium.pptx
 
Benefits & Challenges of Inclusive Education
Benefits & Challenges of Inclusive EducationBenefits & Challenges of Inclusive Education
Benefits & Challenges of Inclusive Education
 
HED Office Sohayok Exam Question Solution 2023.pdf
HED Office Sohayok Exam Question Solution 2023.pdfHED Office Sohayok Exam Question Solution 2023.pdf
HED Office Sohayok Exam Question Solution 2023.pdf
 
CAULIFLOWER BREEDING 1 Parmar pptx
CAULIFLOWER BREEDING 1 Parmar pptxCAULIFLOWER BREEDING 1 Parmar pptx
CAULIFLOWER BREEDING 1 Parmar pptx
 
Diploma in Nursing Admission Test Question Solution 2023.pdf
Diploma in Nursing Admission Test Question Solution 2023.pdfDiploma in Nursing Admission Test Question Solution 2023.pdf
Diploma in Nursing Admission Test Question Solution 2023.pdf
 
How to Manage Cross-Selling in Odoo 17 Sales
How to Manage Cross-Selling in Odoo 17 SalesHow to Manage Cross-Selling in Odoo 17 Sales
How to Manage Cross-Selling in Odoo 17 Sales
 
Philosophy of Education and Educational Philosophy
Philosophy of Education  and Educational PhilosophyPhilosophy of Education  and Educational Philosophy
Philosophy of Education and Educational Philosophy
 
CapTechU Doctoral Presentation -March 2024 slides.pptx
CapTechU Doctoral Presentation -March 2024 slides.pptxCapTechU Doctoral Presentation -March 2024 slides.pptx
CapTechU Doctoral Presentation -March 2024 slides.pptx
 
In - Vivo and In - Vitro Correlation.pptx
In - Vivo and In - Vitro Correlation.pptxIn - Vivo and In - Vitro Correlation.pptx
In - Vivo and In - Vitro Correlation.pptx
 
2024.03.23 What do successful readers do - Sandy Millin for PARK.pptx
2024.03.23 What do successful readers do - Sandy Millin for PARK.pptx2024.03.23 What do successful readers do - Sandy Millin for PARK.pptx
2024.03.23 What do successful readers do - Sandy Millin for PARK.pptx
 
Practical Research 1 Lesson 9 Scope and delimitation.pptx
Practical Research 1 Lesson 9 Scope and delimitation.pptxPractical Research 1 Lesson 9 Scope and delimitation.pptx
Practical Research 1 Lesson 9 Scope and delimitation.pptx
 

Beyond the Mean

  • 2. This edition published by LULU, February 2012  ISBN: 978‐1‐4716‐1146‐9    This  work  is  licensed  under  a  Creative  Commons  Attribution‐NonCommercial‐ ShareAlike 3.0 Unported License  (CC BY‐NC‐SA 3.0).    To view a copy of this license, visit http://creativecommons.org/licenses/by‐nc‐sa/3.0/  or  send  a  letter  to  Creative  Commons,  171  Second  Street,  Suite  300,  San  Francisco,  California 94105, USA. Whilst the Creative Commons License for this book entitles you  to  distribute  /  modify  the  work  for  non‐commercial  use,  without  additional  permissions,  we  kindly  request  that  you  inform  the  authors  of  any  intention  to  re‐ publish / remix this title. Send an email to mean@goingbeyond.co.uk    Every  effort  has  been  made  to  contact  perceived  copyright  holders  for  material  reproduced  in  this  publication.    Any  omissions  or  oversights  will  be  rectified  in  subsequent  editions  if  written  notice  is  given  to  the  author.  All  trademarks  are  the  property of their respective owners. The authors are not associated with any product  or  vendor  mentioned  in  this  book  except  where  stated.  Unless  otherwise  stated;  any  third‐party  quotes,  images  and  screenshots,  or  portions  thereof,  are  included  under  ‘fair use’ for comment, news reporting, teaching, scholarship, and research.    Acknowledgements  The  authors  would  like  to  thank  Michelle  Gilchrist  for  her  help,  support  are  tireless  proof reading skills, without which, this book would not have seen the light of day.    Disclaimer  This is a book aimed at those readers wanting to explore data as used to drive decisions  in schools.  It is not a comprehensive guide to statistics – no responsibility is assumed  or  accepted  for  your  decisions  based  on  your  data.    Using  the  techniques  detailed  in  this text provides an aid to decision making whereas, the decision to act is left to the  discretion of the reader.  No liability can be placed with the authors of this text.     By using the material contained within this guide, you acknowledge that you have read  and accept this disclaimer  2
  • 3.   Preface to first edition      I have to admit a long standing and growing interest in the subject of statistics.  As a  research scientist before finding my vocation as a teacher I used the tools of statistics  on a daily basis to inform my research and to plan future investigations.  When I started  on my teaching career I was amazed at just how underdeveloped the use of “proper”  numbers was, both in the classroom and within the wider arena of educational policy  making.  Far reaching decisions are made on the basis of poorly researched and under  analyzed  data.    Everyone’s  tax  investments  and  our  endeavors  as  a  teacher/leader  is  constantly  being  misdirected  by  the  improper  analysis  of  data.    This  book  is  my  contribution to the cause of using data in an appropriate and considered manner.    Good luck dear reader.  Glen Gilchrist, February 2012      I’ve been head of faculty for 5 years now and in all that time, I don’t think that I’ve seen  anyone  –  literally  anyone  in  the  education  sector  use  data  in  a  robust  manner.  Sure,  I’ve  seen  pretty  bar  charts  and  tables  used  to  justify  interventions  and  to  determine  policy.  I’ve sat through too many INSET sessions discussing the consequences of poorly  analyzed  data;  in  fact  I’ve  been  asked  to  lead  on  data  sessions  as  presented  to  incoming PGCE, NQTs and new staff – I guess in short, I’ve become part of the problem.  I  believe  that  you  dear  reader  have  an  obligation  to  reflect  upon  the  data  that  you  collect and the consequences of your analysis.     Alexavier Fareheed, February  2012      Corresponding with the authors  Data  analysis  can  be  a  lonely  pursuit.    The  authors  are  happy  to  receive  questions,  queries and other correspondence – send an email to mean@goingbeyond.co.uk.    3
  • 4.   4
  • 5. Contents    Introduction  9  It’s easy to see why data is mishandled and unsafe conclusions drawn.  10  Essential definitions  11  A word about software  12  Minitab  13  Final note  13  Chapter 1  15  DATA ANALYSIS THAT SCHOOLS “DO”  15  Why we use the mean average  15  Factors we can compare  16  Central tendency  16  The mean ‐ a point statistic  16  More sophisticated analysis  18  Complementing the mean – bar charts  19  Using the mean to compare “segments” of data  20  Using the language of statistics  21  The wider school picture  21  Call to action  23  Conclusions  24  Chapter 2  25  THE PROBLEMS WITH THE MEAN  25  Statistics in action  26  Call to action  26  Problems with the mean  27  Call to action  27  The dangers of presumption – pre analyzing the data  28  Call to action  28  What do your bar charts show?  29  5
  • 6. Ethics, politics and “getting your own way”  30  Call to action  31  How big an effect / difference is “big enough” to matter?  32  Extra information in a “modified” bar chart  33  Call to Action  33  Looking at a whole cohort  34  Preconceptions again  35  Conclusions  36  Chapter 3  37  COMPARATIVE STATISTICS  37  What does significant mean?  37  T‐tests and p values  37  Calculating significance using Excel  40  Excel command for T‐testing  41  Call to action  43  Conclusions  44  Chapter 4  45  FACTORS WITH MULTIPLE LEVELS.  45  Multi level factors  45  Combine levels to make a binary solution  45  Calculating t‐test for “binned” data  48  Limits of the t‐test  49  Multi level factors  50  ANALYSIS OF VARIANCE  50  Does attendance affect attainment?  51  Fitting a trend line to Excel data  52  2 Using R  to check for “goodness” of fit  54  One way Analysis of Variance (ANOVA)  58  Non numeric multi level factors  61  Call to action  66  Pause for breath ……..  67  Questions to reflect on  67  Conclusions  68  6
  • 7. Chapter 5  69  GENERAL LINEAR MODEL (GLM)  69  Constructing a GLM  70  Deeper analysis  73  Extending the GLM  75  Building interactions into the GLM  77  Big implications of the GLM  79  Call to action  80  Conclusions  80  Chapter 6  81  MAIN EFFECTS  81  Main Effects Plot  83  Interactions Plot  84  Call to action  88  Conclusions  88  Chapter 7  89  FINAL REMARKS  89  Tools you’ll need:  89    7
  • 8.   8
  • 9. Introduction    Every  school  leader,  head  of  subject  and  class  room  teacher  will  recognize  the  following scenario:      It’s  a  school  INSET,  and  what  wonderful  pedagogical  expertise  is  going  to  be  shared  with you, the willing staff? – Yes, you’ve guess it “Addressing the gender differential” –  the very name sends waves of déjà‐vu through the staff and the authors of this book  develop an instant migraine.      We’re not denying that there is a difference between the genders and their approach  to education; nor are we suggesting that as teachers and leaders that you don’t need  to monitor things to ensure that situations aren’t improving/deteriorating ‐ what brings  us  to  the  point  of  tears,  is  that  this  statement  is  based  on  poorly  and  superficially  analyzed data.     As we will show in this book, it’s easy to assume that responses will be different for a  certain factor, and when you just look at the mean of data set, this “difference” is often  seen  –  you’ve  then  proved  your  initial  assumption  and  you  don’t  look  for  a  more  fundamental  root  cause.    In  our  experiences,  this  is  the  case  with  the  gender  differential, and I bet you’ve fallen into it too.    When  we  came  into  teaching,  for  the  first  time  in  our  professional  lives  we  became  aware of the situation of being “data rich but information poor”.  Education abounds  with numbers, and schools, students & teachers have never been “measured” as much  as they are in 2010‐20111     But which numbers do you use and which demand that you take them seriously?                                                                   1  Whilst this appears to be particularly true of the English / Welsh systems, all educational infrastructures  constantly battle with league tables, “banding” and other lists  9
  • 10.     It’s easy to see why data is mishandled and unsafe conclusions drawn.      Until  very  recently,  use  of  correct  descriptive  statistics  was  the  preserve  of  the  statistician, often resulting in the calculation of arcane numbers, utilizing impenetrable  mathematics.  Indeed, pick up anything but the most basic of statistics text books and  the  reader  will  soon  be  swimming  in  a  sea  of  mathematical  notation,  far  beyond  the  readability of those without degrees in mathematics.      But  with  the  change  is  responsibilities,  the  TLR  structure,  and  the  reduction  is  extraneous funding, the expectation is that as a subject/school leader, you undertake  data analysis and draw conclusions.    I doubt you’re trained in statistics (and why should you be?) ‐ so instead of carrying out  statistically  valid  analysis  you’ve  have  returned  to  that  most  basic  of  measure  –  the  “average” – after all, it’s easy to calculate and means something doesn’t it?    Throughout  the  text  of  this  book,  we  will  look  at  analysing  the  data  a  typical  department in a school might produce – initially by calculating “means” and developing  this into a more rigorous assessment of data.      So dear reader, this book is aimed at classroom practitioners, heads of department and  school leaders seeking a deeper understanding of what your data actually shows.      In a nutshell, we’re going to take you “beyond the mean”.     Glen Gilchrist & Alexavier Fareheed  2012  10
  • 11. Essential definitions  We need to define three vital terms that will be used throughout this text:    Factor:  A factor is a variable whose values are independent of changes in the values of    other  variables.    Traditionally  factors  are  the  groups  into  which  we  split  our    data – gender, SEN, free school meals are examples of educational factors.    Level:  Factors can be split into different values.  Statistically, these values are called    levels.            Levels  can  be  numerical,  quantitative  or  qualitative,  binary  or  multi  level.       Binary Levels        Levels  can  be  binary  in  nature  “boy  or  girl”,  “SEN  or  not”  and  can  be    represented numerically “1=boy, 2=girl” or remain as text.          Multilevel Levels    Levels are not always binary, “originating primary school” for example could be    one  of  10  or  more  levels,  with  each  school  either  referred  to  by  name  or  a    coded “number”   1=School A, 2=School B etc          For  continuous  levels  (age  and  attendance  are  good  examples)  levels    themselves  might  be  grouped  together  to  make  analysis  easier.    These    groupings are often called “bins” and reference will be made to “bin size”.      Attendance for example could be binned as:      ‐1 = less than 80%    0= 80% to 89.9%    1 = 90% and greater          The numerical value of the groups (‐1, 0, 1) is not important and the labels are    used to  dentify the grouped levels.  Some consideration needs to be made into  i 11
  • 12.     the size / range of the groupings as this choice can affect subsequent      data  analysis  –  however  this  is  outside  the  scope  of  this  text,  and  for      the analysis undertaken in schools, just ensure that the bins are       “sensible”.      Response:  The response is the output that you are measuring.  For school based      data, average or total points score and number of “C’s” are the typical      responses measured.        A word about software  MS  Excel  is  referred  to  throughout  this  text  and  is  used  as  convenient  shorthand  for  “spreadsheet”.    We  acknowledge  that  other  spread  sheets  such  as  OpenOffice  and  GoogleDocs are available and can be used fairly interchangeably for MS Excel (except  where  indicated).    Each  has  their  strengths  /  weaknesses,  but  all  process  statistical  information in much the same manner.  There is no need to change your spreadsheet  package to complete the numerical analysis undertaken in the majority of this text.    Some  of  the  more  advanced  statistics  require  the  use  of  a  dedicated  statistics  tool.   Recently  the  cost  of  these  tools  has  fallen  dramatically  and  academic  licenses  can  be  obtained  for  less  than  £50.    We  cannot  recommend  strongly  enough  the  value  in  obtaining the correct tool to analyze your data.    A great list is maintained at Wikipedia, which compares different statistical tools, their  costs and licenses:  http://en.wikipedia.org/wiki/Comparison_of_statistical_packages.    12
  • 13.   Minitab  Throughout this book the authors makes use of Minitab as a conveniently easy tool to  get  to  grips  with  and  available  at  an  excellent  price  (from  sub  £20)    (http://www.minitab.com/en‐GB/academic/licensing‐options.aspx).  The publisher also  makes available a free 30 day trial – more than enough time to learn the ropes and to  process data for your self evaluation.        Final note  The  authors  are  practicing  teachers,  currently  heads  of  subject  in  maintained  secondary schools and have no association with any of the tools / software / publishers  mentioned in this text.        “Data analysis is a journey that the only destination is enlightenment – get ready for  the ride of your life.”  Glen & Alexavier – February 2012  13
  • 14.     14
  • 15. Chapter 1  Data analysis that schools “do”  One of the biggest challenges in getting data used correctly in schools used to be the  actual collection and manual processing of the “numbers”.  Now with tools such as MS  Excel,  OpenOffice  and  GoogleDocs  available  to  all,  the  challenge  has  shifted  to  the  actual processing and analysis that turns “numbers” into “data”.    Courses  abound  in  educational  circles  about  the  “use”  of  data,  but  from  personal  experiences they all focus on 3 areas:    1. Sources of baseline data (CATs, FFT, Government, Feeder Primaries)  2. Segmenting the data (gender, free school meals, SEN)  3. Monitoring, assessing and explaining student performance against (1) and (2)    Valuable as these courses are (and a significant improvement on not using data), they  all  focus  on  basic  statistics  –  the  mean  average,  range  and  a  cursory  diversion  into  drawing  and  formatting  bar  /  line  graphs;  and  whilst  this  is  encouraged,  reliance  on  these measures alone can lead to poorly drawn and costly conclusions.      Why we use the mean average  Whilst Excel et al have democratized the collection and analysis of data, they have also  exposed the fact that most users of these tools are unaware how to use them at a high  enough level to process statistical information. As a result, most users are content with  tabulation,  calculation  of  “averages”  of  data  sets  and  with  drawing  basic,  overly  coloured bar charts.      These  “averages”  are  then  used  to  draw  conclusions,  usually  in  the  form  of  comparisons;    Boys  vs  Girls,  free  school  meals  vs  non  free  school,  English  vs  Maths,  2009 vs 2010, one school vs another.    15
  • 16. Factors we can compare  The candidate list for comparison is long: special educational needs, ethnicity, “looked  after”,  target  group,  literacy  “booster”  support  or  a  hundred‐and‐one  other  educational imperatives.  A situation that I am certain occurs in your school. Indeed the  schools  inspection  framework2  demands  that  schools  use  data  to  “identify,  plan  and  monitor” the attainment of “groups” of learners.  Without extensive use of such data,  schools cannot hope to achieve a coveted “Grade 1” status.     We will expose in this chapter the dangers of using just the mean to represent a data  set,  and  show  how  drawing  conclusions  can  lead  to  costly  and  unnecessary  interventions.    Central tendency  Used in this context, the mean is a “measure of central tendency”3    The  two  most  widely  used  measures  of  "central  tendency"  of  data  are  the  mean (average) and the median. For example, to calculate the mean weight of 50 people,  add the 50 weights together and divide by 50. To find the median weight of the 50  people, order the data and find the number that splits the data into two equal parts.   The median is generally a better measure of the centre when there are extreme values  or  outliers  because  it  is  not  affected  by  the  precise  numerical  values  of  the  outliers  themselves (The median is often used to describe “average” earnings in a population as  it is not affected by a small number of very large (or small) salaries) .     The mean ‐ a point statistic  The mean is a “point” statistic – that is, it reduces an entire data set to a single value,  useful to succinctly describe the data.  (However, you lose any sense of the spread and  variability of the numbers).   As a result, the mean is the most widely used measure of  central tendency, but as we will see, not always the most useful.                                                               2  UK wide, but certainly heavily endorsed in England and Wales  3  There are three measures of central tendency used to describe data sets – mean, mode and median.  If  you are unfamiliar with these terms or just need a recap, remember – Google is your friend.  16
  • 17.   For example, the Average Points score for 5 schools in 2011 was:    Average  School  Points Score  A  435  B  403  C  440  D  427  E  438      What conclusions can be drawn from this data?     School “C” is the best performing   School “B” is the least performing    Schools “A”, “C” and “E” all have similar points scores   School “B” needs to do “something” as its performance is very different to the  other schools.      It’s  likely  that  such  analysis  is  undertaken  at  this  level  in  both  your  department  and  whole school self evaluations.      The consequences of such analysis are likely to be some form of change, intervention  or closer monitoring. In short, money, time and effort will be expended acting on this  analysis  of  means.    A  situation  that  we  are  sure  has  happened  in  your  school  or  department.  17
  • 18.   More sophisticated analysis  Further  and  seemingly  more  sophisticated  analysis  will  have  you  looking  at  the  same  data over a period of 3 or 5 years:      School  2008‐2009  2009‐2010  2010‐2011  A  425  430  435  B  440  420  403  C  411  424  440  D  425  430  427  E  430  438  438      What does this show?     School “C” is the most improved over the 3 years   School “B” has fallen 37 points over 3 years   Schools “D” and “E” have shown little improvement over the three years      As  part  of  your  self  evaluation  /  action  plan  –  you  will  have  undoubtedly  looked  at  3  year trends in mean data.  You’re likely to have compared your results to that of other  departments, between local, national and family of schools and made pronouncements  on how well you are doing compared to last year.    To try an unravel some of the mystery about what your data is showing you, chances  are you’ll draw a bar chart of the means.    18
  • 19.   Complementing the mean – bar charts  Let’s complete the analysis and draw a bar chart of the data for the schools over three  years:        What does this chart show us?     It emphasizes the fall in performance of school “B”   The performance gains of school “C” look incredible   School “D” looks all but static over the past three years    Overall, what conclusions can be drawn about schools “A” to “E”?     School “A” is doing something that is improving performance   School  “C”  is  clearly  doing  something  “better”  than  the  other  schools  and  better than school “A”  19
  • 20. School “D” appears not to be doing anything and performance is static   School  “E”  looks  like  something  happened  during  2009‐2010,  but  these  gains  have stopped and the school has not improved since.   School “B” looks like it’s in free fall and standards are falling rapidly      No  doubt  such  analysis  is  regularly  completed  by  you  and/or  your  senior  leadership  team. And if our personal experiences are reflected in your school the stress levels and  anxiety rises in proportion to the preparation and analysis of such data.     Using the mean to compare “segments” of data  As  a  teacher,  administrator  or  policy  maker  we  often  need  to  compare  the  means  of  two  or  more  populations  –  essentially  to  test  whether  or  not  an  intervention  or  observation produces a measurable difference.  For example, the average points score  for Year 11 students upon receiving their L2 qualifications is often segmented into data  for males and females.       Average Points Score      Boy  402    Girl  448      As a result of this basic analysis, decisions and policy will be decided.      In  this  case,  “clearly”  there  is  a  sex  linked  differential  between  Boys  and  Girls  –  with  Girls  outperforming  Boys  by  some  10%.    From  this  analysis  of  means  an  intervention  will  be  planned  –  possibly  grouping  next  year’s  cohort  into  separate  sex  classes,  planning boy friendly lessons and tweaking the seating plans.    Again, we’re sure that you’re familiar with such segmentation of data and are certain  that  your  self  evaluation  contains  statements  about  the  gender  differential  and  how  you intend to tackle it.    20
  • 21. Using the language of statistics  At this point, let’s start to use the language of statistics more fully.    In the case above for boys / girls L2 performance:     We have one factor, SEX, split into two levels (Boy and Girl) – we say we have a  binary factor.     Our response is the Average Points Score    From now on, we will use factor, level and response to describe our data.      The wider school picture  Such analysis is extended across the wider school, comparing the differentials in your  subject to those in English, French and DT4 ‐ as a direct result of this analysis a working  party  or  even  a  PLC5  will  be  created  to  tackle  the  clear  differences  between  subject  areas.      (Whilst  written  here  in  a  tongue‐in‐cheek  manner,  I  suspect  that  your  school  has  at  some  point  created  a  working  party  to  contemplate  differences  in  responses  when  factors are analyzed for mean differences)                                                                   4  Insert the high performing subject areas in your school  5   PLC  –  Professional  Learning  Community,  school  based  collaborative  action  research  –  for  more  details  see:  http://www.centerforcsri.org/plc/program.html  21
  • 22.     What can we conclude from this chart?     French has the smallest sex differential   Science has the widest differential   In DT, boys outperform girls    The  temptation  in  this  case  is  to  view  the  French  differential  (low)  as  in  some  way  “better” that the Science differential (high) and to invest time and resources in solving  the “problem”.      We’re not suggesting that this does not need to be solved; just that the data analysis  performed so far does not demand such investigations, merely hints at it            22
  • 23. Call to action  1. Do  you  know  the  three  measures  of  central  tendency  and  when  to  use  each  one? Do you know how to get Excel to calculate each?    2. Find your self evaluation and identify where you have used the mean of a data  set to draw a conclusion about segmentation of data    3. Look  at  the  charts  and  graphs  you  have  created  for  your  exam  analysis  meeting.  Are they based on means of data?  What conclusions did you draw  from them?    4. Look at whole school, local and national data – how often is an entire data set  reduced to a point statistic?    5. How well can you use your spreadsheet tools?    a. Can you enter formula to calculate the average of a data set?    b. What  about  counting  the  numbers  in  a  column  when  the  value  in  a  different  column  is  a  particular  value?  (CountIF()  –  used  to  automatically count data, say based on a column containing the sex of  a learner)  23
  • 24.   Conclusions  During this chapter we have shown the basic data analysis undertaken by schools.  As  subject  team  leader  we  imagine  that  you  have  laboured  over  such  figures  yourself,  painstakingly entering figures into MS Excel, creating comparison bar / pie charts and  drawing conclusions based on the mean average of data sets.      You’ve  likely  taken  such  figures  into  exam  analysis  meetings  with  your  head  teacher  and drawn conclusions about why students who obtain free school meals do “less well”  in your subject than, say, Spanish.      All of these things are a step in the road to understanding how to use data effectively  and the fact that you are reading this title demonstrates a clear desire to take your use  of data to a higher, more effective level.     In the coming chapters I’ll show you why data analysis based solely on the mean of a  population  is  dangerously  superficial  and  can  lead  to  misdirected  effort  and  the  potential to miss a more fundamental underlying truth.    24
  • 25. Chapter 2  The problems with the mean  Demonstrating  that  there  are  “issues”  with  using  the  mean  of  a  data  set  is  often  the  most instructive way forward.    Consider the following data obtained for a group of year 10 Maths students.    Student  L / R Hand  Score A  R  80  B  R  78  C  R  82  D  R  84  E  R  76  F  L  82  G  R  81  H  L  79  I  L  79  J  R  81  K  L  84  L  R  76  M  R  81  N  R  78    If we take the average of the left handed and the right handed students, we obtain;    Hand  Average Score  Left  81  Right  79.7    25
  • 26. From  this,  we  conclude  that  right  handed  students  underperform  compared  to  left  handed  –  we  might  even  plan  further  monitoring,  investigate  the  scheme  of  work  to  look for bias and set up a far reaching working party.    Statistics in action  If you take any data set, made up from “real” data – and by real, I mean measured from  real people / events, not simulated on a computer, and segment that data into two –  you are likely to see a difference between one group and the other.    In this case, we looked at L and R hands, but the argument holds for any segmentation,  regardless of how ridiculous it sounds.    Call to action   1. The next time you teach any class, survey them for one of the following:  o Xbox or Playstation  o Blackberry or iPhone  o Eastenders vs Coronation Street  o Family Guy vs American Dad      (The choices don’t need to be binary, but at this stage, it will help with the data    analysis)    2. Add this segmentation to the class register.      3. The  next  time you “test”  your learners, split  the data into the segments that you  have just defined and calculate the mean for each:  (for example)    Console  Average Score  Xbox  67  Playstation  83    Ask yourselves the following question – does this show anything meaningful?  26
  • 27. Have  we  just  uncovered  the  route  to  educational  success  –  “buy  everyone  a  Playstation” or is there something else going on?    Whilst  a  contrived  example,  I  am  sure  from  your  own  experience  that  this  segmentation and superficial analysis has been undertaken – possibly with the gender  differentials cited in the previous chapter.      Problems with the mean  From  the  previous  example,  what  exactly  are  the  problems  with  using  the  mean?   Some observations stand out:    1. The difference between left and right handed is small – 1.3 –   a. The question we should ask is:    “Is this difference big enough to matter?”    2. There are only 4 left handed students – does this affect the conclusions?     “How much data do you need to draw realistic inferences?”    These  issues  aside,  we  are  sure  that  you  have  drawn  conclusions  using  similarly  analyzed data.      Call to action  Before you read on, either for your own data or the data presented previously, splitting  into Left and Right handedness, use your favourite spreadsheet to draw a bar chart of a  set  of  results  that  can  be  split  into  two  segments.    For  the  purposes  of  this  text,  I’ll  assume that you’ve used my data.       27
  • 28.   The dangers of presumption – pre analyzing the data  The  analysis  of  data  by  using  just  the  mean  is  not  the  only  concern  for  rigorous  data  analysis.      When  we  presume  there  is  a  difference  between  two  segments  of  data,  we  are  unsurprised  when  we  find  it,  and  are  then  more  likely  to  accept  that  difference  as  meaningful.  After all boys and girls are different, so when your data shows this, it must  be true – right?    Call to action  What presumptions do you make in your data analysis?    1. Would  you  have  expected  left  and  right  handed  segmentation  to  produce  different means?   a. Can you think of a pseudo‐pedagogical reason why this might be true?    2. What about other splits of data?   a. Everyone  knows  that  free  school  meals,  linked  to  poverty  affects  attainment – right?  Does your data show this difference?      When  you  analyze  your  data  and  find  a  difference,  you  are  ready  to  accept  it  as  real  and meaningful.  The same is true with gender, SEN and a host of other factors that we  assess.      28
  • 29.   What do your bar charts show?  Let’s  show  you  my  plots  the  mean  data  for  handedness  as  a  series  of  bar  charts,  all  showing the same data:    A C  B D      Firstly, let me assure you that these charts all show the same “numbers” for the left  and right hand segmentation of the data.     Chart “B” is the default MS Excel and OpenOffice formatting of the data as entered.    The only difference between each chart is the scale of the y‐axis.   Chart “A” shows 79.5≤ y ≤81.1, with each division being equal to 0.2   Chart “B” shows 79  ≤ y ≤81.5, with each division being equal to 0.5   Chart “C” shows 0  ≤ y ≤80, with each division being equal to 20   Chart “D” shows 0  ≤ y ≤100, with each division being equal to 20    Quite  dramatically  charts  “A”  and  “B”  emphasize  the  differences  between  L  and  R,  whilst charts “C” and “D” seem to imply the difference is almost nonexistent.  29
  • 30. Ethics, politics and “getting your own way”  But which is the correct way to display the data?    At this point, those of you reading this who find the whole concept of data and analysis  abhorrent will be likely thinking “that’s why I hate doing all this stuff” – “see I was right,  its way beyond me”, and the most insightful “It’s bloody confusing!”    Oddly for a book aimed at using statistics we are going to tend to agree with the last  statement.    For the four charts shown, there is no “right” answer – heck, there’s not even a “best”  answer.     The  surprising  thing  (and  this  is  what  causes  the  data  adverse  to  shiver  with  indecision) is that it’s entirely up to you and you can choose the one that makes your  case the strongest.    Say,  I  had  presumed  that  there  was  a  L/R  split  in  data  and  analyzed  the  results  –  I  would choose chart “A” or “B” to represent my results as they clearly demand taking  the  L/R  split  seriously.    Had  I  on  the  other  hand  assumed  that  there  would  be  no  difference, I would choose “C” or “D” as it backs up my case.  Both are strictly “correct”  but I have subtly manipulated the presentation of data to support my case.      The  whole  point  is  that  our  preconceptions  will  (often  subconsciously)  guide  us  through the data visualization and analysis process.  We will change what we do to  support our personal agenda – however careful we are.  30
  • 31.   Call to action  1. What did your bar chart look like?  Which of my examples was it closest to?    2. As  part  of  the  self  evaluation  and  action  planning  process  you  will  have  certainly  either  constructed  or  interpreted  charts  showing  results  –  often  segmented  into  different  groups.    Those  groups  will  have  likely  shown  a  difference.    Have  you  presented  data  to  SLT  by  using  either  the  default  or  custom scales – to “make your point clearer”?    What we’ve just demonstrated is that the apparent importance of differences can be  manipulated by just how you construct your charts.    3. How have you constructed charts for last year’s examination analysis meeting  with your SLT?  Have you emphasized or played down an effect to influence a  decision or opinion?      However  well  minded  your  intentions,  I  suspect  that  you  will  have  exerted  some  “influence”  on  the  data  –  even  if  it  was  just  by  using  the  default  settings  in  Excel  –  which in this case seem to imply that there is a huge difference between L and R.    31
  • 32.   How big an effect / difference is “big enough” to matter?  To try and resolve some of these issues just raised, let’s go back to the data for “L” and  “R” and construct a type of “modified” bar chart6, where we are combining the discrete  data of “L” and “R” on the x‐axis, with a continuous y‐axis showing the “score”:        Point Plot of Score vs Hand    84   83   82   81   80 Score   79   78   77 76   75   L R   Left / Right     You see two “columns” of data, one for L and one for R that is comprised of a series of  “o” points corresponding to each value.  Superimposed on the chart is a “” showing  the mean for L and mean of R, with a line connecting each mean.    At  this  point,  as  was  demonstrated,  had  the  data  been  displayed  as  a  bar  chart,  you  would  have  shown  that  “L”  outperforms  “R”  and  depending  on  the  scale  you  used,  could have either emphasized or downplayed the results.                                                               6   This  chart  was  produced  in  Minitab,  by  tweaking  the  “box  plot”  chart  –  a  great  statistical  analysis  software package, but similar can be achieved with MSExcel or plotted straight onto graph paper  32
  • 33.   Extra information in a “modified” bar chart  What this chart clearly shows is the spread of data for each segment.  You can see that  the entire L data sits within the R data.     The range of the R data is more than the L data   There are no values of L that are higher than R   There are low values of R, lower than any of the L data    What can be concluded from this chart, is that whilst the means are different, with L  being higher than R, the spread of the data and the low values of R have influenced the  mean value.    What if those learners with the lowest right hand score just happened  to be the SEN  learners  in  the  class?    Or,  what  if  those  lowest  R  scores  correspond  to  learners  who  have been long term sick, incomers to school, EAL learners?        Call to Action  1. Find a data set that you can segment into two (boy / girl splits work well and  are  a  constant  political/educational  debate).  You  need  the  actual  score  for  a  class, broken down into learners / gender.    2. Plot  the  scores  as  a  modified  bar  chart,  one  column  for  each  segment  (boy  /  girl)    3. What does this show you for your data?            33
  • 34. Looking at a whole cohort  Average points score vs sex 900 800 700 600 500 POINTS 400 300 200 100 0 F M Sex   The figure above, shows 2010 data for the average point score for a secondary school,  split by sex.  As before, the line joins the means.    The chart shows that girls have a higher average points score to boys (as the line slopes  down, from left to right)    From  analysis  of  the  means,  the  following  was  presented  to  SLT  for  the  annual  exam  analysis meeting:      Average Points Score    Boy  443    Girl  406      From the mean analysis, it appears that there is a real and big difference between the  boy and girl average point scores.  34
  • 35.   The modified bar char starts to add more meaning:     The spread or ranges of the boy data is more than the girl data   The boy data has far more lower scores than the girls   The girl data has the highest performing students.    Preconceptions again  Again whilst sex is a convenient (and presumptuous) way of explaining difference – and  indeed  the  means  substantiate  a  conclusion,  might  it  just  be  that  the  lowest  scoring  learners  (who  happen  to  be  boys)  also  happen  to  be  the  EAL  students?    Might  it  be  equally true that the highest performing girls receive tuition outside of school?    We come back to the question:     How big an effect / difference is “big enough” to matter?    and we add:    How do we tell what the real cause of something is?    35
  • 36.   Conclusions  We have demonstrated how the mean as a point statistic is a blunt instrument in data  analysis, and can lead to spurious conclusions    Our  own  preconceptions  about  “what’s  likely”  to  make  a  difference  (gender)  will  influence how to visual and analyze data.    How  we  can  (often  unwillingly)  influence  /  bias  perception  with  the  way  what  we  represent data.    The use of a modified bar chart can begin to shed more light on the data and allow us  to draw safer conclusions.    In  the  next  chapter  we  will  begin  to  quantify  differences  to  allow  us  to  make  firmer,  evidence based data analysis.    36
  • 37. Chapter 3  Comparative statistics    Over  the  previous  two  chapters  we’ve  been  talking  about  the  mean  of  data  being  a  poor  summary  tool  and  incomplete  when  used  to  compare  two  segments  of  data.  We’ve shown how we can draw a chart to help illustrate the difference between means  and how, by tweaking the scales of bar charts, you can magnify or minimize apparent  differences.  Ultimately, all of these techniques are qualitative and assessing whether  or not data sets are different has been a matter of choice.    Whilst this might be satisfactory when deciding what the most popular games console  is,  surely  we  can  apply  more  forethought  over  decisions  that  are  likely  to  lead  to  profound implications to the education of young people.    What  we  are  looking  for  is  a  way  to  quantify  how  different  sets  of  data  are,  and  an  agreed  upon  set  of  standards  for  assessing  whether  or  not  a  measured  difference  is  significant – hence, if the difference is significant it demands attention and solution.    What does significant mean?  It’s important at this point to clarify that a difference is statistically significant if the  observed difference is greater than can be accounted for by random error alone.    T‐tests and p values  For  the  professional  statistician  there  are  a  number  of  measures  that  can  be  used  to  assess the significance of measurements being different.  If we intended to compare a  response  to  one  factor  only  (say  gender),  we  would  use  the  t‐test,  which  returns  a  probability  that  the  difference  between  the  data  sets  cannot  be  distinguished  from  random occurrences or accounted for by other factors.      37
  • 38. That mouthful (presented for statistical correctness) can be reduced to:    The probability (%) that the data sets are not really different.  This is often referred to  as the p value, and is either a decimal in the range 0.000 to 1.000 or a percentage.  The  higher the p value, the less sure we are that the data sets are different.    For example:      If p=0.000 or 0% we would have zero concern that the means were the same.         Or put the other way, we would be totally certain that the means are different.     We would be (1‐p) or 100% confident that the means were different.      If  p=0.001  or  0.1%,  we  would  be  slightly  concerned  and  not  totally  confident    that the means were different.  We would be (1‐p) or 99.9% confident that the    means are different.      If  p=0.005  or  0.5%,  we  would  be  more  concerned  that  the  means  were  not    different – We would be (1‐p) or 99.5% confident that the means are different.      If  p=0.10  or  10%,  we  would  be  quite  concerned  that  the  means  were  not    different.  We would be (1‐p) or 90% confident that the means are different.      If p=0.50 or 50%, we would be totally unsure and (1‐p) = 50% would show that    it was 50/50 that the means are different.      Consider the following question – if you wanted me to invest £1,000,000 in your idea to  cure cancer, and you had tested it against a placebo, what value of p would you accept  as sensible evidence for “proving” your cure worked?     Would you accept p=0.10 or only 90% sure that your cure worked?   Would you accept p=0.005 or p=0.001?    Statisticians  agree  that  a  p  value  of  0.005  or  less  is  needed  for  “proof”  that  a  difference is real and hence defined as significant.  38
  • 39.     P  values  in  the  range  p=0.01  to  p=0.006  show  increasing  evidence  that  a    difference might be real and probably warrants further analysis      P values in the range p=0.05 to 0.01 show a hint that there is a real difference.         At  p=0.05,  we  would  be  95%  sure  there  is  a  real  difference,  or  there’s  a  5%    chance that the means are actually the same.  This p=0.05 value corresponds    to  the  limit  of  “significance”  –  a  p‐value  of  p=0.05  or  less  indicates    significance of a difference between two levels of a factor.      P  values  greater  than  p=0.05  are  rejected  are  we  are  less  than  95%  sure  the    data sets are different.      This  might  sound  draconian,  but  these  levels  of  significance  are  used  by  drug  companies to “prove” a cure works, by the courts and police to convict those accused  of  crimes  and  by  all  serious  scientists  trying  to  prove  that  A  caused  B  or  C  worked  better than D – so if it works for them, it should work for us.   39
  • 40.   Calculating significance using Excel  You can use Excel to calculate the t‐test p values.  The data however does need to be  laid out in a particular manner: From our previous left / right handed example:    Student  L / R Hand  Score A  R  80  B  R  78  C  R  82  D  R  84  E  R  76  F  L  82  G  R  81  H  L  79  I  L  79  J  R  81  K  L  84  L  R  76  M  R  81  N  R  78      For  Excel  to  compute  t‐test,  we  need  to  have  each  response  corresponding  to  a  particular level of a factor in a different  column.  In this case,  the data for left hand in  a different column to the data for right hand, so some manipulation is needed:    40
  • 41.                                   In this screen, data for R has been placed in C2 : C11, whilst data for L has been placed  in D2: D5.    Excel command for T‐testing  The formula for Excel to calculate t‐test is TTEST(range 1, range 2, tails, type) – which  returns the p value as seen in D13 above.     Range 1 and range 2 corresponds to the data sets.   Tails can be “1” or “2” – corresponding to the shape of the distribution.  For us  using data that can be equally distributed around a mean, we will always pick  “2”   Type  can  be  “1”,  “2”  or  “3”  –  corresponding  to  “paired”  or  “unpaired”  data.   The difference between these is quite involved and difficult to explain briefly.   Its sufficient to say that given the data that we are analysing, we will always  choose “3”  41
  • 42. The p value of 0.414 indicates a 41.4% chance that the means are actually the same.   Or  as  we  discussed  previously,  a  1‐p  or  58.6%  chance  that  the  means  are  different.   (Remember what we are talking about here – this almost represents a 50/50 case –  that the data is different OR not)    This  is  well  above  the  value  of  statistical  significance  (p=0.05)  and  the  p‐value  demands that we treat the means of these data sets as “not different”.    Contrast the value of a numerical value to the previous charts we created:        Whilst  we  might  have  concluded  that  the  means  were  the  same  or  “not  likely  to  be  different”,  clearly  this  was  open  to  interpretation  /  bias  and  was  left  to  my  decision  over how we drew the charts.    Now we have a numerical value to assess the just how different a difference actually  is.    42
  • 43.   Call to action  1. Revisit the data you collected previously.    2. For  the  factors  that  you  were  considering,  put  one  value  of  the  response  corresponding to one level of a factor (boy) in one column and the other level  (girl) into another column.    3. Calculate the TTEST value, using the ranges for the  data, “2” for the tails and  “3” for the type.    4. What is the p value?    5. Does  this  show  a  significant  difference  between  the  data  sets  or  do  you  conclude that they are the same?    6. Does this disagree with any analysis you previously undertook?     7. Next  time you split a data set into two groups, calculate a t‐test to see if the  means really are different.    43
  • 44.   Conclusions    In  this  chapter  we  have  introduced  the  concept  of  calculating  a  value  that  shows  whether  or  not  the  differences  between  two  means  is  caused  by  the  factors  being  measured or could be down to random chance or some other, non measured factors.    We  introduced  the  concept  of  the  p‐value,  which  corresponds  to  a  probability  or  percentage that the difference between means is real or just down to chance.    P values less than p=0.001 show a 99.9% chance that the means really are different and  the factor you are measuring is responsible    P  values  of  p=0.05  are  considered  the  critical  value  and  correspond  to  a  95%  chance  that the factor you are measuring is responsible.    P  values  greater  than  p=0.05  are  rejected  as  we  are  less  than  95%  certain  that  the  factor being measured is responsible.    The  t‐test  can  be  calculated  in  Excel  with  the  TTEST(range  1,  range  2,  tails,  type)  formula entered into a cell.  Tails is normally “2” and type “3”      In the next chapter we’ll look at a more useful test that allows you to look at factors at  more than two levels, such as previous primary school.    44
  • 45. Chapter 4  Factors with multiple levels.    So far we we’ve looked at assessing responses against factors that exist in two levels –  splitting data sets by boy/girl, looking at left or right handed, free school meals or not.   To process a t‐test in Excel required the data to be laid out in a specific manner, but did  result in a quantifiable measure of the difference between means.    Multi level factors  But what about factors that have multiple levels – such as previous primary school?  Or  factors that are a continuous in nature, such as reading or spelling age?  Simply put, the  t‐test doesn’t work for factors in more than two levels.     Combine levels to make a binary solution  The first and possibly the simplest solution is to re‐code levels into a binary set – say by  grouping reading age into 10 ≤ x ≤ 12 and 12 < x ≤ 14  and then perform a t‐test.      It  doesn’t  matter  what  we  call  these  levels      ‐  “1”  and  “2”  or  “Low”  and  “High”  are  traditionally used.    Once we have the factor levels, we lay out the data as we did before in Excel, with one  column for each factor level.    In the following example, we have coded reading age using this scheme:    8 ≤ x ≤ 12  = 1 and x > 12 = 2      45
  • 46.     If we take the means of the bins, we conclude:    Bin  Mean  "1"  449  "2"  492      Surely  a  43  point  difference  between  the  average  points  score  for  the  two  different   reading age “bins” represents something that we must take seriously?    46
  • 47. Let’s look at the data:        Looks encouraging, that difference of 43 surely looks impressive and stands out.    Remember what we said about scales?  If we draw the same chart on axes starting at 0:        Now,  the  difference  between  the  two  groups  looks  less  impressive  than  before  –  maybe they’re not that different.  47
  • 48.   Calculating t‐test for “binned” data    As before, let’s reorganize the data and get Excel to calculate the t‐test.      The t‐test of 0.1987 indicates a 19.87, say 20% chance that the means are actually the  same and there is no difference between the reading age bins.  Put another way, there  is  a  1‐p  or  nearly  80%  chance  that  the  means  are  actually  different,  and  we  cannot  conclude that the factor we are assessing is solely responsible for the difference.    Now 80% sounds positive – but remember we agreed that p=0.05 was the upper limit,  above  which  we  cannot  be  certain  that  the  factor  is  causing  the  difference  in  the  response.    48
  • 49. Limits of the t‐test  I know that sounds like a bunch of statistical waffle, but the wording is important.   The  t‐test  does  not  rule  out  reading  age  having  an  effect  on  points  score,  but  the  low  significance of p=0.1987, points to some other factor either jointly being responsible or  (as is likely) more significant in explaining the difference between the data.    In  our  case,  it  means  we  should  keep  analyzing  the  data  to  find  a  more  fundamental  difference.    As before, let’s plot a modified bar chart for the bins “1” and “2”, joining the means for  each level.  In this case, it proves a particularly useful chart as it clearly shows that the  mean for level “2” of reading age is pulled upward by the three high points score.    Boxplot of Points Score vs Re-coded 650 600 550 Points Score 500 450 400 350 300 1 2 Re-coded                 49
  • 50. Multi level factors  We can use the same idea of binning‐up factor levels to ease analysis of other factors –  such as attendance data for example.      However, what if we don’t want to combine factors into just two levels?  In the case of  attendance data, we might want:      ‐1    =  less 80    0   =   80 to 89.99    1   =   90‐ 94.99    2   =   95+      We can’t use the t‐test as it only works to discriminate between factors that are in two  levels. We need a different statistical tool – analysis of variance.    Analysis of variance  You’ve arrived at the point in the statistics journey where you are about to leave the  “core”  functions  of  Excel  behind.    Whilst  it’s  true  that  you  can  get  Excel  to  calculate  analysis  of  variance,  it’s  not  an  easy  process,  the  preparation  of  the  data  can  be  confusing and the results leave a lot to be desired.    At this point I strongly suggest that you get hold of a copy of Minitab7 or download the  excellent  Daniels  XL  Toolbox8  –  a  free  add‐in  to  Excel  that  will  enhance  its  native  statistics capability.      However, even Daniels XL Toolbox will run out of steam in the next chapter, so maybe  it’s time to break the Excel apron strings ‐ ;‐)                                                               7  Or alternative statistics package.  See the preface to this book for how to obtain Minitab for a reasonable  price.  8  http://xltoolbox.sourceforge.net/  50
  • 51.   Does attendance affect attainment?  Anyways,  let’s  push  on  and  look  at  a  continuous  variable,  attendance  and  try  and  answer  the  questions  –  “Does  attendance  affect  attainment”.    Received  wisdom  is,  “surely  yes,  attendance  affects  attainment  and  the  more  you  attend  the  higher  the  attainment” – but ask yourself whether you’ve actually tested this “wisdom”.    As we have two data sets that are continuous, we can get a feel for what’s going on by  plotting a traditional scatter graph of attendance (x) against points score (y)            Does that help?  Is there a link between attendance and attainment?  51
  • 52.   Fitting a trend line to Excel data  Excel  allows  us  to  fit  a  line  between  the  data  points  that  “best”  represents  the  data.   How well that line fits is shown by the R2 value – the close it is to 1, the better the fit,  with anything above 0.8 as indicating a “good” fit to the data.    Create a scatter graph as normal.  Once created, right click on a data point to bring up  the context menu:                      Select “Add Trendline”.    From the next context menu, you can choose what kind of line to fit – in this case we  are looking for a straight line, so choose “linear”:        Leave most of the settings to the default, but at the bottom, before you click the CLOSE  button, put a check as indicated:          52
  • 54. From our data, the following linear trend line is fitted.          Using R2 to check for “goodness” of fit  The R2 value of 0.0093 indicates that the line does not represent the data well – in fact  anything below 0.80 is regarded as “poor”.     In fact when R2 = 0, the line fits the data no better than a horizontal line drawn through  the mean “y” value.    The closer R2 is to 1, the better we can use the line and its equation to predict values –  in  this  case,  we  if  R2=1  we  could  100%  predict  a  points  score  from  the  attendance.   Clearly this is not the case for our data.    54
  • 55. So does attendance matter?    Lets bin up the attendance figures as previously agreed:      ‐1    =  less 80    0   =   80 to 89.99    1   =   90‐ 94.99    2   =   95+    Sample of the original data and “binned”  or “coded” figures.    Attendance Coded  Points  Attendance Coded  Points  90.35  1  479  98.07  2  548  91.32  1  350  100  2  440  100  2  440  81.35  0  413  99.36  2  597  76.53  ‐1  695  76.85  ‐1  314  95.82  2  752  98.07  2  698  89.71  0  502  100  2  440  93.25  1  834  88.42  0  614  78.14  ‐1  389  95.18  2  566  84.24  0  290  96.14  2  631  59.81  ‐1  269  100  2  440  85.85  0  425  100  2  284  95.18  2  292  96.14  2  469  75.56  ‐1  410  98.71  2  342  100  2  262  100  2  400  63.02  ‐1  538  89.97  0  426  96.78  2  612  94.21  1  626  100  2  80  94.21  1  552  87.14  0  158  88.75  0  467  92.93  1  494  92.93  1  519  89.71  0  509      55
  • 56. Let’s  calculate  the  means  of  each  bin  to  assess  if  there  is  any  variation  between  attendance figures:      Binned  Mean Points  ‐1  435.8  0  422.7  1  550.6  2  460.7    What the mean analysis shows, is a difference of 25 points in going from the lowest sub  80%  attendance  to  the  highest  95%+  attendance.    But,  is  this  a  big  enough  effect  to  conclude that attendance matters?      If we plot the binned attendance against points score, we can see that “something” is  going on, and the connected means show some variation    Modified Bar Chart of Points vs Binned Attendance 900 800 700 600 500 Points 400 300 200 100 0 -1 0 1 2 Binned attendance     56
  • 57.   At this point, the observant reader might ask “Doesn’t all  this depend on  the size  of  the bins?” – Let’s see....    If we re‐bin the data, into ‐1 (less than 90) and +1 (90 and greater) we find;    Binned  Mean Points  ‐1  427.9  1  486.9    This  time,  there’s  nearly  60  points  of  difference  between  the  lowest  and  highest  attendance – surely this is significant?    At this point we’ve reduced the factors to a binary split, so we can use the t‐test to see  if the difference between the means is real and significant.    The preparation of the data is left as an exercise for the reader, but by binning into ‐1  and  +1,  separating  the  data  into  columns  and  running  the  Excel  TTEST  function,  we  obtain a value of p=0.243.    This  p  value  is  well  above  the  value  of  p=0.05  for  us  to  consider  the  means  as  statistically  different  and  we  conclude,  that  there  is  no  statistical  difference  between  the average points score, when we consider the factor “attendance”.    However,  this  is  not  where  we  wanted  to  be  –  we’ve  reduced  a  factor  to  a  binary  split.      We’re going to stick with the original binned data, as they correspond to how we track  learners in school:      ‐1    =  less 80    0   =   80 to 89.99    1   =   90‐ 94.99    2   =   95+    57
  • 58. You’ll  need  Daniels  XL  toolbox  or  Minitab  at  this  stage.    Download  a  copy  for  MS  Excel from: http://xltoolbox.sourceforge.net/    One way Analysis of Variance (ANOVA)  The  statistical  test  that  we’re  going  to  perform  is  called  the  One‐way  analysis  of  variance or as its usually referred to ANOVA.      ANOVA  is  similar  in  function  (but  mathematically  much  more  complex)  to  the  t‐test,  except ANOVA can test whether or not two or more means are different.  ANOVA tests  produce a p value which can be interpreted in the same manner as the t‐test.    This is ideal for our case – ANOVA will reduce our problem of determining if attendance  matters to the familiar task of interpreting a p‐value.    As we’re going to use Daniels XL toolbox or Minitab, data this time can be laid out as  you would receive it from your examinations officer, without further processing.      That  is  a  list  of  information  with  headings  across  the top – no preparation will be required.    <<<  Your data will be laid out like this    With one row per pupil – much easier to deal with  than before.    From the Add‐In menu in Excel, select XL Toolbox,  and navigate to the Statistics  > ANOVA  menu     From the One‐Way Analysis of Variance (ANOVA)  menu  that  appears,  select  the  ranges  for  the  input data.    58
  • 59.   Click in the box once and then drag down  over the range of the bins – not including    the heading  Click in the box once and then drag down  over the range of the data – not including    the heading      59
  • 60. You should find that the numerical range of each is the same – in this case, $2 to $41 –  but your data might be different, and they don’t need to the same size.    Once the ranges are set up, select Run ANOVA.          This dialogue shows a number of things, but the most important for us are:     The bin names (‐1,0, 1 and 2), their counts & means   ANOVA Results p‐value, which allows us to comment on the significance.    In  our  case,  P=0.41370,  which  is  well  above  P=0.05,  indicating  that  there  is  no  statistical  significance  difference  between  the  means  and  any  differences  cannot  be  ascribed to the attendance levels alone.  60
  • 61. Non numeric multi level factors  We  started  this  text  by  looking  at  gender  and  handedness,  both  were  binary  non  numeric factors (either one value or another).  Some factors under consideration can  be non numerical and text based – originating primary school9 for example.    Our fictional secondary school has 4 feeder primaries: Elm Tree, Everymans, Oldberry   and St Judes.      The average points score at the year of Year 11 for a group of learners is:  Primary  Points Primary  Points Primary  Points Primary  Points  St Judes   314  St Judes   698  Elm Tree   509  St Judes   494  St Judes   695  St Judes   440  St Judes   614  Elm Tree   440  St Judes   389  St Judes   566  St Judes   426  St Judes   597  Elm Tree   269  Oldberry   631  St Judes   467  St Judes   698  St Judes   410  Oldberry   440  Elm Tree   413  St Judes   440  Elm Tree   400  Everymans   501  St Judes   502  Everymans   566  St Judes   314  Oldberry   469  Oldberry   290  Everymans   631  St Judes   614  St Judes   342  Elm Tree   425  St Judes   440  St Judes   426  Oldberry   400  Elm Tree   158  St Judes   284  St Judes   467  Oldberry   626  St Judes   509  Oldberry   469  Oldberry   413  Oldberry   552  St Judes   479  St Judes   342  Everymans   695  Oldberry   519  Everymans  490  St Judes   400  Everymans   502  St Judes   548  St Judes   626  St Judes   548  St Judes   389  Oldberry   440  Elm Tree   401  Oldberry   440  St Judes   290  Everymans   752  Oldberry   519  Oldberry   752  St Judes   269  Everymans   834  St Judes   834  Oldberry   292  Elm Tree   425  St Judes   292  Oldberry   494  Oldberry   262  Everymans   410  Oldberry   262  Oldberry   350  Oldberry   612  St Judes   538  Elm Tree   612  Oldberry   440  Elm Tree   80  St Judes   158  Everymans   540  Oldberry   597                                                                     9  At this point, I need to be clear – I’m not suggesting a blame culture between Primary and Secondary,  more, the fact that we have this data in secondary and it can be instructive to see if and where a response  can be split by a factor.  61
  • 62. Firing  up Excel and the XL Toolbox we  place  the data in  two columns, one for feeder  primary  and  the  other  for  points  score.    Navigating  through  XL  Toolbox  we  run  an  ANOVA:        What this ANOVA shows us, with a P value of p=0.0089 is that feeder primary is more  than 99% certain to have an effect upon the average points score at the end of year 11.      What it doesn’t show is where this variation actually is.  Are all the schools different, or  just one school different from the rest?    62
  • 63. Let’s plot a modified bar chart to see:    Modified Bar Chart of Points vs Primary 900 800 700 600 500 Points 400 300 200 100 0 Elm Tree Everymans Oldberry St Judes Primary     The “difference” is likely to be between Elm Tree and Everymans.  But, being the good  statistician we now want to ask more rounded questions:     Is Everymans different to Oldberry & St Judes?     Is Elm Tree different to Oldberry?      Fortunately, tests exist to quantify this difference.  63
  • 64.     If the p‐value of the ANOVA indicates a statistically significant difference, (indicated by  * or ** next to the value), an additional tab at the top of the window is active.  Select  this tab:        The window that appears allows you to test for significance between the levels of the  factors previously analyzed for the ANOVA test.      Leaving the default “Bonferroni‐Holm” (named after the statisticians who devised the  test)  you  can  click  on  each  level  of  factor  in  the  “Compare”  column  and  look  how  different  that  is  to  other  levels  –  importantly  for  us,  the  dialogue  displays  the  significance.    64
  • 65. On this screen, click on “Produce report”, which will summarise this test in an easy to  read table.      Posthoc test: Bonferroni‐Holm  Group 1  Group 2  Critical  P  Significant?  Elm Tree   Everymans   0.008333333 0.002662327  Yes  Oldberry   Everymans   0.01  0.017707646  No  St Judes   Everymans   0.0125  0.01989173  No  St Judes   Elm Tree   0.016666667 0.074365767  No  Elm Tree   Oldberry   0.025  0.082440719  No  St Judes   Oldberry   0.05  0.96789046  No    (Here, the significance of the P value is slightly different than before – if the value of p  is less than the displayed “critical value”, the difference is significant.    65
  • 66. We can see that for our data, only the Elm Tree – Everymans difference is significant,  whilst the Oldberry, and St Judes to Everymans is approaching significant.      Whilst our modified bar chart hinted at this before, we now have a hard and fast figure  that describes the difference between the primary schools.        Call to action    Now that we’ve got some real statistical tests in our tool kit, go and find your master  data set for your school / department / class.    Most  schools  will  have  spreadsheets  of  such  data,  and  they  probably  look  something  like this:    Name  Sex  SEN  FSM CATs  Att%  Feeder  Read  Maths English  Science  Overall Points Adams, Jon  M  NA  N  119  90.35  St Judes 14.02 30  35  40  440    See if you can answer the following questions from your own data:    1. Are the overall results for your school different for gender?  Is this a significant  difference ?  a. (TTEST and P value)  b. Repeat the analysis for free school meals (FSM)    2. How  well  does  CATS,  (or  other  base  line  data),  attendance  or  reading  age  predict Maths, English, Science (insert subjects that you have data for)?  a. (Scatter graph for continuous data and fit a trend line.  Check R2 value)    3. Create  some  binned  data  (CATs,  Feeder  School)  and  use  ANOVA  to  check  the  significance of a multi leveled factor.  a. Use  Bonferroni‐Holm  to  check  for  differences  between  levels  of  a  factor  66
  • 67. Pause for breath ……..    At  this  point,  you’ve  come  a  long  way.    Instead  of  using  the  means  of  responses  to  describe (possibly erroneous) differences between the effects of  factor levels, you’ve  just used some real statistical tests (TTEST and ANOVA) to provide you with evidence  that is more than just a “hunch”.    Questions to reflect on  1. Did any of your analysis contradict your preconceptions?      2. Did  you  show  that  gender  was  statistically  significant  overall?    What  about  gender for Maths, English, Science?    3. Do  learners  from  any  of  your  feeder  primaries  perform  significantly  different  than learners from other?  Does this surprise you?      This is the beauty of simple statistical tests – you can ask the “What if” questions and  very quickly get an answer.      But, and isn’t there always a but – from the factors listed how do you decide which is  the most important and most significant in driving a response?    Name  Sex  SEN  FSM CATs Att%  Feeder  Read  Overall Points  Adams, Jon M  NA  N  119  90.35 St Judes 14.02  440      And for that, we need yet another tool – this time, the final one we’ll introduce and the  “most useful”, generic test available.  Say hello to the General Linear Model  67
  • 68.   Conclusions  We’ve  covered  a  lot  of  ground  in  this  chapter.    Starting  with  the  t‐test  previously  described we’ve looked at:    Grouping  or  binning  factor  levels  to  allow  us  to  continue  to  use  the  t‐test  and  the  familiar p value for significance    How we can use Excel and trend lines to explore the relationship between continuous  data.    We looked at the R2 value and used it to decide how “well” a trend line matched the  data.  R2 = 0.80 is the agreed upon limit, below this the fit is described as “poor”.    How  continuous  data  can  also  be  binned  up  to  allow  t‐tests  to  differentiate  between  binary leveled factors    We’ve introduced the concept of One‐way analysis of variance (ANOVA), which allows  us to test for significance between multi level factors.    We  looked  at  extending  this  ANOVA  to  explore  differences  between  the  levels  of  factors and how to assess the significance of these differences.    We explored Daniels XL Toolbox, a free add‐in to Excel which makes calculating ANOVA  much more straight forward.  68