How to use the HadoopStreaming class to work in Hadoop using perl (or any language, actually)
Presentation made for the French Perl Workshop 2012 in Strastbourg.
Démarrer rapidement avec Apache Flink par Bilal Baltagi
- Présentation de l'éco Système Apache Flink
- Prise en main rapide
Bilal Baltagi a obtenu un master en analyse des données à l'Université Paris Nord - Paris 13. Il est actuellement consultant décisionnel chez Sarenza à Paris. Il intervient sur toutes les phases d'un projet décisionnel et Big data: recueil des besoins, conceptions, réalisations et accompagnement des utilisateurs. Bilal est de plus en plus intéressé à l'intersection de la Big Data avec la Business Intelligence et aime jouer avec Apache Flink!
Spark, ou comment traiter des données à la vitesse de l'éclairAlexis Seigneurin
Spark fait partie de la nouvelle génération de frameworks de manipulation de données basés sur Hadoop. L’outil utilise agressivement la mémoire pour offrir des temps de traitement jusqu’à 100 fois plus rapides qu'Hadoop. Dans cette session, nous découvrirons les principes de traitement de données (notamment MapReduce) et les options mises à disposition pour monter un cluster (Zookeper, Mesos…). Nous ferons un point sur les différents modules proposés par le framework, et notamment sur Spark Streaming pour le traitement de données en flux continu.
Présentation jouée chez Ippon le 11 décembre 2014.
Démarrer rapidement avec Apache Flink par Bilal Baltagi
- Présentation de l'éco Système Apache Flink
- Prise en main rapide
Bilal Baltagi a obtenu un master en analyse des données à l'Université Paris Nord - Paris 13. Il est actuellement consultant décisionnel chez Sarenza à Paris. Il intervient sur toutes les phases d'un projet décisionnel et Big data: recueil des besoins, conceptions, réalisations et accompagnement des utilisateurs. Bilal est de plus en plus intéressé à l'intersection de la Big Data avec la Business Intelligence et aime jouer avec Apache Flink!
Spark, ou comment traiter des données à la vitesse de l'éclairAlexis Seigneurin
Spark fait partie de la nouvelle génération de frameworks de manipulation de données basés sur Hadoop. L’outil utilise agressivement la mémoire pour offrir des temps de traitement jusqu’à 100 fois plus rapides qu'Hadoop. Dans cette session, nous découvrirons les principes de traitement de données (notamment MapReduce) et les options mises à disposition pour monter un cluster (Zookeper, Mesos…). Nous ferons un point sur les différents modules proposés par le framework, et notamment sur Spark Streaming pour le traitement de données en flux continu.
Présentation jouée chez Ippon le 11 décembre 2014.
Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Apache Cassandra - Concepts et fonctionnalitésRomain Hardouin
Apache Cassandra - Concepts et fonctionnalités, 25/02/2014
Présentation de Cassandra pour le premier évènement "Lyon Cassandra Users" (organisé par DataStax & Zenika).
* Présentation de Cassandra
* Concepts clés (Théorie & Architecture)
* Installation
* Les outils DataStax : DevCenter et OpsCenter
* Modèle de données
* Requêtes
Présentation de l'architecture de calcul de statistique web chez Scoop.it, basé sur Hadoop+Hive, présentation faite lors de la session du 13 Décembre 2012 du Jug Toulouse
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Cette étude porte sur la brique Spark SQL de la plateforme Apache Spark.
L'objectif est de présenter les concepts et les fonctionnalités de spark SQL.
Les points abordés sont :
- Architecture
- API de Spark SQL
- Opérations sur DataFrames/DataSets
- Opérations relatives au nettoyage de données
- Opérations de conversion (DataFrame, DataSet, Collection, RDD)
- Opérations relationnelles
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Annexe du cours Big Data
- Annexe A : Etapes d’un projet Big Data
- Annexe B : Schéma général de l’Algorithme MapReduce
- Annexe C : OpenStack & Hadoop
- Annexe D : Mahout
Il y a souvent des difficultés dans la communication entre les équipes d’exploitation et les équipes
de développement. Les enjeux ne sont pas les mêmes: les uns ont pour mission de stabiliser
le système, les autres au contraire de le faire évoluer. Ces incompréhensions sont encore plus
fortes avec les équipes BI, car les bases BI ont des besoins très différents des applications traditionnelles.
En expliquant ces différences, j’espère amener à une meilleure compréhension entre
les équipes. C’est aussi l’occasion de parler des technologies récentes qui adressent les besoins
BI: Exadata, In-Memory, réplication temps réel,…
El documento describe un proyecto para educar a niños, jóvenes y adultos sobre la calidad del aire y la contaminación atmosférica en San Vicente de Tagua Tagua, Chile, la cual fue declarada una zona saturada de material particulado fino. El proyecto incluye capacitar a educadores sobre este tema, celebrar el Día del Medio Ambiente de manera educativa con la comunidad, y establecer una mesa de trabajo con otra fundación para desarrollar más actividades relacionadas con el medio ambiente.
This document summarizes and comments on two scientific articles about recent research into noncoding RNA and developing vaccines for viruses. The first article discusses the discovery of a long noncoding RNA that regulates innate immunity and inflammation. The second describes work using a "genetic poison pill" to minimize mutations in a virus's RNA polymerase and reduce its ability to replicate when developing vaccines. The student observes that both studies could provide insights into treating inflammatory diseases and developing protections against lethal viruses.
Rapide introduction à Hadoop lors du lancement du Casablanca Hadoop & Big Data Meetup.
En partenariat avec Hortonworks
http://www.meetup.com/Casablanca-Hadoop-et-Big-Data-Meetup
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Apache Cassandra - Concepts et fonctionnalitésRomain Hardouin
Apache Cassandra - Concepts et fonctionnalités, 25/02/2014
Présentation de Cassandra pour le premier évènement "Lyon Cassandra Users" (organisé par DataStax & Zenika).
* Présentation de Cassandra
* Concepts clés (Théorie & Architecture)
* Installation
* Les outils DataStax : DevCenter et OpsCenter
* Modèle de données
* Requêtes
Présentation de l'architecture de calcul de statistique web chez Scoop.it, basé sur Hadoop+Hive, présentation faite lors de la session du 13 Décembre 2012 du Jug Toulouse
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Cette étude porte sur la brique Spark SQL de la plateforme Apache Spark.
L'objectif est de présenter les concepts et les fonctionnalités de spark SQL.
Les points abordés sont :
- Architecture
- API de Spark SQL
- Opérations sur DataFrames/DataSets
- Opérations relatives au nettoyage de données
- Opérations de conversion (DataFrame, DataSet, Collection, RDD)
- Opérations relationnelles
Big Data : Hadoop
- Généralité
- Architecture HDFS
- Algorithme MapRduce
- Architecture YARN
- Hadoop v3.x vs Hadoopv2.x
Cours Big Data - Chap2 - GI3 - ENIS
Annexe du cours Big Data
- Annexe A : Etapes d’un projet Big Data
- Annexe B : Schéma général de l’Algorithme MapReduce
- Annexe C : OpenStack & Hadoop
- Annexe D : Mahout
Il y a souvent des difficultés dans la communication entre les équipes d’exploitation et les équipes
de développement. Les enjeux ne sont pas les mêmes: les uns ont pour mission de stabiliser
le système, les autres au contraire de le faire évoluer. Ces incompréhensions sont encore plus
fortes avec les équipes BI, car les bases BI ont des besoins très différents des applications traditionnelles.
En expliquant ces différences, j’espère amener à une meilleure compréhension entre
les équipes. C’est aussi l’occasion de parler des technologies récentes qui adressent les besoins
BI: Exadata, In-Memory, réplication temps réel,…
El documento describe un proyecto para educar a niños, jóvenes y adultos sobre la calidad del aire y la contaminación atmosférica en San Vicente de Tagua Tagua, Chile, la cual fue declarada una zona saturada de material particulado fino. El proyecto incluye capacitar a educadores sobre este tema, celebrar el Día del Medio Ambiente de manera educativa con la comunidad, y establecer una mesa de trabajo con otra fundación para desarrollar más actividades relacionadas con el medio ambiente.
This document summarizes and comments on two scientific articles about recent research into noncoding RNA and developing vaccines for viruses. The first article discusses the discovery of a long noncoding RNA that regulates innate immunity and inflammation. The second describes work using a "genetic poison pill" to minimize mutations in a virus's RNA polymerase and reduce its ability to replicate when developing vaccines. The student observes that both studies could provide insights into treating inflammatory diseases and developing protections against lethal viruses.
Las nic y la contabilidad creativa gjr, trabajo de grado publicado en revistaJubilado
Este documento pretende analizar en qué medida las Normas Internacionales de Contabilidad (NIC) previenen, combaten o reducen las prácticas de contabilidad creativa. Presenta definiciones de contabilidad creativa, sus posibles causas y varias técnicas. También cita medidas propuestas por expertos para hacer frente a la contabilidad creativa y ofrece evidencias empíricas sobre su relación con las NIC, principalmente en la Unión Europea. El objetivo es evaluar si las Normas Internacionales de Información Financiera (NIIF) limit
O documento compara os modelos tradicional e ágil de desenvolvimento de software, notando que o modelo tradicional cascata é determinista e focado na execução enquanto o modelo ágil espiral enfatiza a adaptação com base no feedback do cliente.
ipsr solutions ltd. is a complete IT service provider based at Kottayam, Kerala with branches at Trivandrum, Kochi, Thrissur, Kozhikode and Bangalore. We have also established a 100% subsidiary in the United Kingdom. We provide Training in Red Hat, Cisco, Microsoft, software Courses.
Scaling Tableau to the Enterprise: The Perks and Pitfalls of Tableau Server W...Senturus
This document discusses the benefits and pitfalls of implementing Tableau Server. Tableau Server allows users to share workbooks, access dashboards via mobile devices, and reduces licensing costs. Common pitfalls include underpowered hardware, lack of governance and security planning, and outdated Tableau versions. Proper installation, data preparation, training and end user considerations are emphasized.
The document discusses Belmont Resources Inc.'s acquisition of the Kibby Basin lithium exploration property in Nevada. The property has potential to host lithium-bearing brines based on similarities to the geologic setting of Clayton Valley, where lithium is currently produced. Exploration will begin with geophysical surveys to evaluate the basin geometry and potential for hosting aquifers before potential drilling. Albemarle has protested further water rights in nearby Clayton Valley due to concerns over resource depletion, increasing interest in other basins like Kibby Basin for lithium exploration.
El documento habla sobre la esencia de los amigos comparándolos con flores, donde cada amigo trae una fragancia única de su personalidad. Explica que los mejores amigos son como pequeños frascos que contienen las esencias más concentradas y que a pesar de no tener etiqueta, invaden el alma con su fragancia. Finalmente, el autor agradece a una amiga por su demostración de amor y amistad a través del contacto por computadora.
Multiprofessional social media communities: improving health and care - Naomi...Innovation Agency
Naomi McVey highlights how multiprofessional social media communities are supporting improvements in health and care with examples and further thoughts for event attendees.
José miguel lópez frade impulsa no + velloleopoldosoria
José Miguel López Frade introdujo la franquicia de cuidado personal México No + Vello en el país. La franquicia ofrece servicios de fotodepilación y ha sido cubierta por varios medios noticiosos mexicanos importantes como Terra, El Universal, Expansión, CNN Expansión, Nuevo Excélsior, REFORMA.COM, MURAL.COM y varios sitios de noticias en línea sobre temas de la ciudad de México, finanzas y salud.
Esta tecnología ha tenido un gran impacto en la educación al permitir que los estudiantes interactúen con la tecnología y el profesor de nuevas maneras. Ayuda a los estudiantes facilitando información para deberes y trabajos en clase, y también ayuda a desarrollar el pensamiento y las habilidades de los niños con capacidades especiales. Sin embargo, también puede presentar algunas desventajas.
El documento define el acto administrativo como la declaración de voluntad realizada por la administración en el ejercicio de su potestad administrativa. Existen dos tipos principales de actos administrativos: los generales como las ordenanzas y reglamentos, y los subjetivos como las resoluciones. Los actos administrativos deben cumplir con ciertos requisitos como tener un objeto, voluntad, motivación y finalidad pública de acuerdo con el procedimiento regular.
Este documento describe las presentaciones de varios grupos en una clase sobre investigación cualitativa. Cada grupo presentó sobre un tema diferente como los fundamentos filosóficos, el enfoque cualitativo, los métodos como la fenomenología y el estudio de caso. También se discutieron temas como la categorización de datos, la triangulación de información y la investigación acción. El objetivo general fue que los estudiantes aprendieran sobre los diferentes aspectos de la investigación cualitativa.
Amelia Hill interned at NASA's Johnson Space Center in Safety and Mission Assurance. She studied communication and public health at Portland State University and is pursuing a master's in public administration with a focus on health administration. During her internship, she worked on safety investigations and developing techniques while also participating in tours, lectures, and medical research tests. She defined her career path, gained confidence, and improved her technical writing skills during her time at NASA.
Este documento describe los pasos para introducir las nuevas tecnologías en entornos educativos. Estos pasos incluyen planificar el grado de interacción entre estudiantes y máquinas, adquirir hardware y software apropiado, capacitar a los docentes, implementar las tecnologías de forma gradual, y evaluar su efectividad mediante una rúbrica preestablecida. El objetivo final es adaptar los ambientes escolares a las necesidades de los estudiantes de la era digital y hacer el aprendizaje más atractivo e interactivo a través del
DrupalCamp Nantes 2016 - Migrer un site Drupal 6 ou Drupal 7 vers Drupal 8Aurelien Navarre
Retour d'expérience de la migration de la base de connaissance docs.acquia.com de Drupal 6 à Drupal 8 au DrupalCamp Nantes 2016. Les thèmes principaux abordés sont : comment auditer et préparer sa migration, comment utiliser les nouvelles commandes Drush à notre disposition pour facilement mettre en place les conditions d'une migration réussie et quelques astuces glanées par l'expérience acquise au cours de cette migration somme toute assez complexe.
Qu'est ce que PHP ? Dans ce diaporama, vous allez découvrir les principes de base de PHP dans une courte introduction et apprendre à créer vous aussi des sites web dynamiques.
Pour plus de tuto: https://www.funinformatique.com/comment-pirater-un-compte-facebook/
PHP : (Hypertext Preprocessor") est un langage de scripts:
Coté serveur,
Open Source,
et spécialement conçu pour le développement d'applications web.
Il peut être intégré facilement au HTML.
Spark-adabra, Comment Construire un DATALAKE ! (Devoxx 2017) univalence
Tallk présenté à Devoxx avec Bachir Ait M'Barek : https://www.linkedin.com/in/baitmbarek
C’est la révolution dans la BI, les zones tampon FTP laissent la place aux systèmes de fichier distribués, le SQL s'exécute sur Hadoop, les dashboard en HTML5 remplacent les clients lourds, mais ne peut-on pas rationaliser un peu l’approche ?
Comment s’y prendre pour transformer une chaine BI en datalake ?
Cette université fera le tour de l’ingénierie des données en mode BigData. Au travers d’une présentation détaillée des concepts, de retour d’expériences et d’un cas pratique, nous allons découvrir :
les technologies et l’architecture, avec Spark, Kafka, Elasticsearch, Impala et Mesos,
et les méthodes associées : cycle de développement avec Hadoop, tests unitaires, jointures, gestion de la qualité de donnée, recette en mode Big Data et gestion des métadonnées.
Il n’existe à ce jour plus une seule application Web qui n’utilise pas « CSS », ces fichiers qui permettent de styliser son application. Aujourd’hui, « CSS3 » nous permet d’écrire des applications du plus en plus attrayantes mais n’est pas encore idéal puisque nous constatons des manques comme par exemple la définition de constantes de couleurs, chose appréciable pour les sites en marque blanche. Notons également la difficulté pour factoriser et maintenir ce code.
Une lueur d’espoir est apparue, grâce à « Less ». C’est un framework qui non seulement nous facilite l’écriture de nos fichiers CSS, mais nous aide également à les maintenir et à mieux les structurer, tout en ayant des outils que nous pouvons utiliser dans nos usines logiciels.
Découverte de l'environnement de la philosophie et du fonctionnement de Laravel. Pourquoi un tel succès ?
Présentation de différents composant Open Source qui permettent de débuter rapidement un projet Laravel.
Cette présentation fait partie d'une suite de présentations technologiques appelée "Symposium" chez Versusmind. Toutes les présentations sont disponibles sur http://versusmind.eu.
Techday Arrow Group: Hadoop & le Big DataArrow Group
retrouvez notre techday sur Hadoop & le Big Data.
La Technologie Hadoop au coeur des
projets "Big Data".
Pour en savoir plus sur notre projet Square Predict:
http://www.square-solutions.com/accueil/square-predict-big-data-assurance/
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
L'algorithme Map/Reduce et sa mise en oeuvre avec Apache Hadoop permettent de gérer de très grands volumes de données non structurées. Microsoft adopte Haddop sur Windows et Windows Azure. Venez voir comment.
2. le plus simple :
apprendre java
un language simple
facile à apprendre
relativement
répandu
commence à être
assez stable
3. et si je ne veux pas
apprendre ?
hadoop fournit une classe
HadoopStreaming pour lancer des jobs
hors de java
utilise STDIN et STDOUT pour
communiquer avec vos processus
prend 2 arguments principaux : un
programme de map, et un autre de reduce
5. etape 1 : importation des
données avec sqoop
Les données vont être écrite sous forme
tabulaire dans HDFS,
dans /user/hive/warehouse/
db_table_whatever/part-000[0-9]{2}
Utilisable avec HiveQL directment
mais sinon :
hadoop fs -put ./fichier.tsv /user/dmorel/
6. etape 2 : écriture des
scripts map + reduce
while ( <STDIN> ) {
chomp;
my @fields = split /t/;
# make the key
print join( '+', @fields[ ( 16, 25 ) ] );
# separate key and value
print "+t";
# make the value
print join(",",
@fields[ ( 28, 30, ... ) ] ) . "n";
}
7. le mapper peut être plus
«complexe» !
while ( <STDIN> ) {
chomp;
my @fields = split /t/;
# make the key
my $key = join( '+',
@fields[ ( 16, 25 ) ] , q{} );
# make the valueS
my @base_values = @fields[ ( 28 .. 150 ) ] );
my @final_vals = mybigcombinesub(@base_values);
for ( @final_values ) {
print $key, join(«t», @$_), «n»;
}
}
8. exemple d’utilisation
(ouf, pas de code...)
trouver les combinaisons de 3, 4, 5 objets ou +
les plus fréquemment achetées par les clients
d’un site e-commerce
impossible en SQL, trop de combinaisons,
jointures trop lourdes
facile avec Hadoop : juste produire toutes les
combinaisons pour chaque client
séquentiellement, réduire ensuite, et compter
9. reducer : analyser ligne à
ligne, vérifier le key switch
my ($k_prev, $processed_lines_in_key,
@output_lines, $value_to_print);
while (<STDIN>) {
chomp;
my ($key, $value) = split /t/;
if ( $k_main ne $k_prev ) {
$processed_lines_in_key = 0;
_flush_to_stdout(@output_lines);
$value_to_print = ''; $k_prev = $k_main;
}
$value_to_print .= $value;
push @output_lines, [ $k_main, $value_to_print ]
if (int (rand()*3) == 2);
}
10. etape 3 : test
/usr/bin/hadoop fs -cat
/user/david/myfile.tsv
| head -10000
| ./mapper.pl
| sort
| ./reducer.pl