Presentation made on the new CGIAR Big Data in agriculture platform, and how big data approaches can contribute to improved productivity through data driven agronomy.
4. Internet usage:
40% of global
population – 2.26
billion
Developing countries:
from 0-30% in 16 years
On linear trend, 100%
in just 22 years. Goal
of UN to have 50% by
2015. Achieved 34%
Philippines ranked
above US in 2015
A game changer?
9. Democratizing Big Data…..
About CGIAR mission: propose ANOTHER BUSINESS MODEL for the use
of these techniques.
Google, Monsanto, John Deere all entered the business of big data in
Ag, but with the same business model: subscribed service for
commercial farmers. Smallholders also have much to benefit from BD,
but can’t always pay for the service.
How do we close equity gaps instead of widening them?
10. The Vision
The data revolution is changing the role, reach and modus operandi of
research and development organizations. It represents an
unprecedented opportunity to find new ways of reducing hunger and
poverty, but also has its risks: unequal access to and use of information
How do we close equity gaps instead of widening them? We propose
ANOTHER BUSINESS MODEL for the use of these techniques.
11. Goal: to harness the capabilities of Big Data to
accelerate and enhance the impact of
international agricultural research, and solve
development problems faster, better and at
greater scale
Organise: Make CGIAR + partners data truly
open and available, revolutionize how
agricultural data is collected and managed
Convene: Bring big data to agriculture and
agriculture to big data by partnering the
CGIAR with 42 Big Data powerhouse partners
Inspire: Solve development problems with big
data; generate new international public goods
around big data in agricultural development
12. Big Data: A behavior change
• YES big data requires large amounts of data and therefore big
servers, BUT it is much more than that:
• REUSING the data: Extracting embedded knowledge from existing
datasets to answer questions that don’t have to do with the initial
purpose for which the data was captured.
• COMBINING datasets that were originally not supposed to meet,
enable to relate more variables and uncover useful correlations.
• ANALYZING with CREATIVITY: the data scientist needs to be
innovative in the uses he is giving the data. Who would have guessed
that Google requests could help fighting flu?
16. 1.Avoid crop losses due to climate variability
2.Close yield gaps through appropriate management
of the climate
3.Produce food sustainably, synergistically with the
environment
17.
18. Hey Cigi,
when should I plant my maize?
Real-time decision support
system for farmers
Easy natural language as an
interface
Smart artificial intelligence
trained by CGIAR and partners
Leveraging open, harmonized
and interoperable multiple
databases
19. A complementary bottom-up approach: Information from commercial fields - Taking advantage of modern information technologies !!!
Climate Soil Crop
management Productivity
/Quality
Site-specific
information
Yield and quality limiting
factors
favorable/unfavorable
Climatic patterns
Optimal site-specific
management practices
Massively exciting, transformational science
“The most magical aspect of big data is Smart Data: the
application of statistical analytics and machine learning to
data sets to find interesting connections and signals in all
the noise.” ”. Philip Brittan. http://tmsnrt.rs/1EmFXTT
21. 238 production events, 2013 to 2016
www.open-aeps.org
From zero to heros: New insights in 4 slides
22. VARIABLES SIGNIFICADO TIPO UNIDAD
TIPO_SIEMBRA Siembra mecanizada o manual Categórica NA
SEM_TRATADAS Tratamiento de la semilla Booleana NA
DIST_SURCOS Distancia entre surcos Cuantitativa m
DIST_PLANTAS Distancia entre plantas Cuantitativa m
COLOR_ENDOSPERMO Color del maíz Categórica NA
CULT_ANT Cultivo anterior Categórica NA
DRENAJE Se hace drenaje en la parcela Booleana NA
POBLACION_20DIAS Numero de plantas por hectárea vivas a los 20 días después de germinación Cuantitativa plantas.ha-1
METODO_COSECHA Cosecha mecanizada o manual Categórica NA
ALMACENAMIENTO_FINCA Se almacena la cosecha? Booleana NA
CONTENFQUI Conteo de tratamientos químicos contra enfermedades Cuantitativa NA
CONTMALQUI Conteo de tratamientos químicos contra malezas Cuantitativa NA
CONTPLAQUI Conteo de tratamientos químicos contra plagas Cuantitativa NA
CANFERQUI Conteo de fertilizaciones químicas Cuantitativa NA
PENDIENTE Pendiente promedio del lote Cuantitativa grados
PH pH del suelo Cuantitativa NA
ESTRUCTURA_RASTA Estructura del suelo Categórica NA
MAT_ORGANICA Contenido de materia orgánica Categórica NA
DRE_INTERN Capacidad de drenaje interno del suelo Categórica NA
DREN_EXTERN Capacidad de drenaje externo del suelo Categórica NA
PROF_EFEC Profundidad efectiva del suelo Cuantitativa cm
MATERIAL_GENETICO1 Cultivar Categórica NA
TEMP_MAX_AVG_VEG Promedio de temperatura máxima en fase vegetativa Cuantitativa °C
TEMP_MIN_AVG_VEG Promedio de temperatura mínima en fase vegetativa Cuantitativa °C
TEMP_AVG_VEG Promedio de temperatura en fase vegetativa Cuantitativa °C
DIURNAL_RANGE_AVG_VEG Amplitud térmica promedio en fase vegetativa Cuantitativa °C
SOL_ENER_ACCU_VEG Acumulación de energía solar en fase vegetativa Cuantitativa cal.cm-2
RAIN_ACCU_VEG Acumulación de precipitación en fase vegetativa Cuantitativa mm
RAIN_10_FREQ_VEG Frecuencia de días con lluvias de más de 10mm en fase vegetativa Cuantitativa NA
TEMP_MIN_15_FREQ_VEG Frecuencia de días con temperaturas mínimas menores a 15°C en fase vegetativa Cuantitativa NA
RHUM_AVG_VEG Promedio de humedad relativa en fase vegetativa Cuantitativa %
RHUM_SD_VEG Deviación estándar de la humedad relativa en fase vegetativa Cuantitativa NA
TEMP_MAX_AVG_FOR Promedio de temperatura máxima en fase de formación Cuantitativa °C
TEMP_MIN_AVG_FOR Promedio de temperatura mínima en fase de formación Cuantitativa °C
TEMP_AVG_FOR Promedio de temperatura en fase de formación Cuantitativa °C
DIURNAL_RANGE_AVG_FOR Amplitud térmica promedio en fase de formación Cuantitativa °C
SOL_ENER_ACCU_FOR Acumulación de energía solar en fase de formación Cuantitativa cal.cm-2
RAIN_ACCU_FOR Acumulación de precipitación en fase de formación Cuantitativa mm
RAIN_10_FREQ_FOR Frecuencia de días con lluvias de más de 10mm en fase de formación Cuantitativa NA
TEMP_MIN_15_FREQ_FOR Frecuencia de días con temperaturas mínimas menores a 15°C en fase de formación Cuantitativa NA
RHUM_AVG_FOR Promedio de humedad relativa en fase de formación Cuantitativa %
RHUM_SD_FOR Deviación estándar de la humedad relativa en fase de formación Cuantitativa NA
TEMP_MAX_AVG_MAD Promedio de temperatura máxima en fase de maduración Cuantitativa °C
TEMP_MIN_AVG_MAD Promedio de temperatura mínima en fase de maduración Cuantitativa °C
TEMP_AVG_MAD Promedio de temperatura en fase de maduración Cuantitativa °C
DIURNAL_RANGE_AVG_MAD Amplitud térmica promedio en fase de maduración Cuantitativa °C
SOL_ENER_ACCU_MAD Acumulación de energía solar en fase de maduración Cuantitativa cal.cm-2
RAIN_ACCU_MAD Acumulación de precipitación en fase de maduración Cuantitativa mm
RAIN_10_FREQ_MAD Frecuencia de días con lluvias de más de 10mm en fase de maduración Cuantitativa NA
TEMP_MIN_15_FREQ_MAD Frecuencia de días con temperaturas mínimas menores a 15°C en fase de maduración Cuantitativa NA
RHUM_AVG_MAD Promedio de humedad relativa en fase de maduración Cuantitativa %
RHUM_SD_MAD Deviación estándar de la humedad relativa en fase de maduración Cuantitativa NA
TOTN Cantidad total de nitrógeno aportada Cuantitativa kg
TOTP Cantidad total de fosforo aportada Cuantitativa kg
TOTK Cantidad total de potasio aportada Cuantitativa kg
TEXTURA Textura del suelo Categórica NA
RDT Rendimiento Cuantitativa kg.ha-1
Variables Data and Analysis
Farmers record production data and
send through app
Data geeks mine it to death:
• Conditional Inference Forest (CIF)1,2
• Partial dependence plots3
• ……..
1 Hothorn, Torsten, Kurt Hornik, and Achim Zeileis. 2006. “Unbiased Recursive
Partitioning: A Conditional Inference Framework.” Journal of Computational and
Graphical Statistics 15(3): 651–74.
2 Strobl, Carolin, Anne-laure Boulesteix, Thomas Kneib, Thomas Augustin, and Achim
Zeileis. 2008. “Conditional Variable Importance for Random Forests.” BMC
Bioinformatics 11: 1–11.
3 Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2009. “The Elements of
Statistical Learning.” Elements 1: 337–87.
http://www.springerlink.com/index/10.1007/b94608.
23. Results
(c)
(d)
(e)
(b)
(a)
R2 = 45.79
Slope (>3°) and de external drain ( at least slow )
= Associated with high yield.
25 kg/ha is the minimum phosphorus to
exploit the plan potential.
From the 238 events, only 23 (10%) apply more than 25 kg/ha of
phosphorus and 198 not fertilized.
Change the harvest method from manual to
mechanized can gain 100 kg/ha
However only 59 events (25%) are harvest with the combined
method.
The plant population at 20 day after germination
should be above the 65000 plants/ha
Currently, 158 (66%) plots, have less than 70 000 plants
Actualmente, En 158 (66%) lotes, hay menos de 70 000 plantas.ha-1 a
los 20 días
24. Impact Farmer gets personalied
“Fenalcheck” report
Five basic farming principles
identified (CropCheck):
Privileging plots with slope > 2°
Farmers with plots without external
drainage should adapt them.
Apply a minimum amount of
phosphorus around 25kg .
Harvest using a combined method
Assure the plant population will be
at least of 65000 plants/ha, 20 days
after germination.
Yield distributions for the three agronomic
management groups observed in Córdoba.
Vertical lines correspond with the yield average from
each group, the red and blue arrows represent the
yield gap for the members of groups B and N.
27. Caña Precipitación - Guacarí
Precipitación - Aeropuerto
Valle del Cauca
Déficit
Norm
al
Exces
o
Precipitación - Tuluá
28.1
238.5
-50
50
150
250
Ago Sep Oct Nov Dic Ene
Precipitación(mm)
Promedio_Mensual Limite_Inferior
15.5
44.9
93.5
-50
50
150
250
Ago Sep Oct Nov Dic Ene
Promedio_Mensual Limite_Inferior
7.1
45.8
0
50
100
150
200
250
Ago Sep Oct Nov Dic Ene
Precipitación(mm)
Promedio_Mensual Limite_Inferior19.6
68.3
0
50
100
150
200
250
Ago Sep Oct Nov Dic Ene
Promedio_Mensual Limite_Inferior Precipitación - Cenicaña
Déficit
Norm
al
Exces
o
Déficit
Norm
al
Exces
o
Déficit
Norm
al
Exces
o
29. 5 May 25 May 19 Jun 14 Jul 08 Jul
Y el pronostico agroclimático? / ESPINAL
Sembrar Fedearroz 733
Reducir densidades de
siembra si no puede garantizar
suficiente agua
Si se decide por Fedearroz
2000 o Fedearroz 60 debería
sembrara antes del 15 de Junio
o debe garantizar riego para
reducir el estrés por agua pero
podrá presentar estrés por
altas temperaturas y alta
radiación
30. • Planting date = Last week of june (23 – 30)
• Variety = FEDEARROZ 733
• Fertilization F733 = Nitrogen: 75% during
vegetative phase - 25% in reproductive
phase.
• Water management = permanent
saturation.
• Planting density = 110 Kg/ha.
Rrecommended management – August - Octuber
Pilot Plot / ESPINAL
32. 5 May 25 May 19 Jun 14 Jul 08 Jul
Fedearroz 733: 6.860 kg/ha
Fedearroz 60: 4.600 kg/ha
Yield forecasts (ceiling)
33. Reunión 11 de Julio 2014
MERIDIANO DE CORDOBA:
“Los arroceros de Córdoba que utilizan los Distritos de Riego de Mocarí y La
Doctrina no sembraron, tal como se los aconsejó Fedearroz.
En su momento se le presentó un modelo de simulación de los rendimientos
que tendría el cultivo ante la menor oferta de lluvia, menos luminosidad y
mayor humedad en el ambiente”.
Irrigation district of Mocarí and La Doctrina : 170 farmers covering
1.800 Ha decided not to plant paddy rice in Córdoba due to non optimal
climate factors and reduced wáter availability. US$3.5m of input costs were
saved – those who did plant lost their crop.
Montería
35. Seasonal
forecast
March-May
2014
Combining seasonal forecasts with empirical
big data analysis
Variety Yield (Kg/Ha) No. of productive events
F174 4,564 31
FORTALEZA 3,543 17
F2000 4,977 8
LAGUNAS 5,052 6
MOCARI 4,604 6
Belongs to Cluster 7
From 506 productive events in this region of Colombia, we
identified 24 “homologous” clusters
38. Closing the information
loop
• Use of ICTs to deliver recommendations
back to farmers
• Use other means of communicating
results:
• Rural radio (28 channels
broadcasting recommendations in
Colombia, weekly)
• Extension agents and rural agro-
advisory systems
39. 39
Stepwise development in agriculture
Años
Tha
201x19XX
Imported technology
Locally adapted agronomy
Data driven agronomy and
technology development
Locally adapted technology
Editor's Notes
Editar texto
Oportunidad: Hace hace 20 anos, no información, computadores costosas y nos imaginabamos que los celulares que tenemos en nuestras manos eran ciencia ficción. HOY contamos con información, a la que se le da un uso limitado y no la explotamos.... recuperar mas novedoso y sexy, vanguardia, ing agrónomo con moto, y celulares
Mentioned by a wide range of analytical approaches (parametric non–parametric models) tailored to the analysis of the data rather than data to a particular methodology, as researchers have done for over a century, Challenges in data-driven analysis: a) tratar información comercial que frecuentemente no cumple los supuestos estadísticos tradicionales, (b) no transformar la variable a explicar y entonces se le puede seguir hablando a los agrónomos y agricultores en Toneladas / Ha y no en (Box y Cox, logaritmos,etc.,) (c) Pueden tratar la no linealidad y por lo tanto rangos óptimos de por ejemplo como mencionas fertilizantes, u otros factores de suelo y/o clima (d) información faltante, etc.,
Both quantitative and qualitative, noisy, non-linear, incomplete, heterogeneous, often non-parametric , (y) transformation, etc.,
Este es el boletín de noviembre, no se si quieras mostrar mas páginas