IT Days - Parse huge JSON files in a streaming way.pptx

© 2022 RWS
1
A way to parse huge JSON files
when the memory used to be a
limitation
Negruti Andrei

© 2022 RWS
2
2 © 2022 RWS
Why do we
have to
process
huge JSON
files?

© 2022 RWS
3
3 © 2022 RWS
Over 7,500 experts across 36 countries
and a client base spanning Europe,
North and South America and Asia
Pacific
Our unrivalled experience and deep
understanding of language has been
developed over more than 60 years
Our global
scale and
experience
We support 330+ language variants
and translate 378+ billion words a
year

© 2022 RWS
5
5 © 2022 RWS
Books to BCM’s
(Bilingual Content Model)

© 2022 RWS
6
• 48.922 words
• Original file: 0.7 Mb
• BCM (JSON): 2.9 Mb
The Great Gatsby
F. Scott Fitzgerald

© 2022 RWS
7
• 105.204 words
1984
George Orwell

© 2022 RWS
8
• 67.495 words
The Clean Coder
Robert E. Martin

© 2022 RWS
9
• 572.298 words
War and Peace
Leo Tolstoy

© 2022 RWS
10
• 561.317 words
The Lord of The Rings
(Entire trilogy)
J.R.R. Tolkien

© 2022 RWS
11
• 449.467 words
Introduction to Algorithms
Thomas H. Cormen,
Charles E. Leiserson, Ronald L. Rivest
and Clifford Stein

© 2022 RWS
12
• 2.565 words
A way to parse huge JSON
files when the memory used
to be a limitation
Negruti Andrei

© 2022 RWS
13
13 © 2022 RWS
Zoom into the
Apply Machine Translation
Step

© 2022 RWS
26
26 © 2022 RWS
Processing a JSON in a
Streaming way

© 2022 RWS
27
{
“action”: “SUM_NUMBERS”,
“requester”: {
“id”: “307d3a82”,
“username”: “admin”
},
“numbers”: [123, 731, ..., 421]
}

© 2022 RWS
28
<dependency>
<groupId>com.fasterxml.jackson.core</groupId>
<artifactId>jackson-core</artifactId>
</dependency>

© 2022 RWS
29
JsonParser parser = new JsonFactory().createParser(input)

© 2022 RWS
30
parser.nextToken()

© 2022 RWS
31
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
{
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}
JsonToken.START_OBJECT
JsonToken.FIELD_NAME
JsonToken.VALUE_STRING
JsonToken.START_OBJECT
JsonToken.END_OBJECT
JsonToken.START_ARRAY
JsonToken.VALUE_NUMBER_INT
...
JsonToken.END_ARRAY
JsonToken.END_OBJECT
null
parser.nextToken()

© 2022 RWS
32
JsonParser parser = new JsonFactory().createParser(numbersFile);
JsonToken token = parser.nextToken();
long total = 0;
while (token != null) {
token = parser.nextToken();
if (JsonToken.FIELD_NAME.equals(token) && parser.getCurrentName().equals("numbers")) {
parser.nextToken(); //Position cursor at START_ARRAY
while (parser.nextToken() != JsonToken.END_ARRAY) {
total += parser.getValueAsInt();
}
}
}

© 2022 RWS
33
33 © 2022 RWS
We built a new
way to process
JSON’s

© 2022 RWS
34
<dependency>
<groupId>com.sdl.lt.lc.json.streaming</groupId>
<artifactId>json-streaming-processor</artifactId>
<version>0.0.1</version>
</dependency>

© 2022 RWS
35
ReadJsonProcessor processor = JsonProcessorBuilder.initProcessor(numbersFile);
PathMatcher pathMatcher = PathMatcherBuilder.builder()
.field("numbers").startArray()
.build();
Iterator<Integer> numbersIterator = processor.readValues(pathMatcher, Integer.class);
long total = 0;
while (numbersIterator.hasNext()) {
total += numbersIterator.next();
}

© 2022 RWS
36
36 © 2022 RWS
Rewrite JSON and add
+1 to each number

© 2022 RWS
37
JsonFactory jsonFactory = new JsonFactory();
JsonParser parser = jsonFactory.createParser(numbersFile);
JsonGenerator generator = jsonFactory.createGenerator(outputStream);
JsonToken token = parser.nextToken();
generator.copyCurrentEvent(parser);
while (token != null) {
token = parser.nextToken();
if (token == null) {
break;
}
if (JsonToken.FIELD_NAME.equals(token) && parser.getCurrentName().equals("numbers")) {
parser.nextToken(); //Position cursor at START_ARRAY
while (parser.nextToken() != JsonToken.END_ARRAY) {
generator.writeNumber(parser.getValueAsInt() + 1);
}
}
}

© 2022 RWS
38
JsonProcessorBuilder builder = JsonProcessorBuilder.initBuilder(numbersFile, outputStream);
PathMatcher pathMatcher = PathMatcherBuilder.builder()
.build();
JsonElementTransformer plusOneEachNumber = builder.mapEach(pathMatcher, Integer.class, nr -> nr + 1);
JsonVisitor visitor = JsonVisitor.withTransformer(plusOneEachNumber);
VisitJsonProcessor processor = builder.build();
processor.visit(visitor);

© 2022 RWS
39
39 © 2022 RWS
Rewrite JSON and add
+1 to each number
Bonus:
retrieve username

© 2022 RWS
40
{
“action”: “PLUS_ONE”,
“requester”: {
“id”: “307d3a82”,
},
“numbers”: [123, 731, ..., 421]
}

© 2022 RWS
41
JsonProcessorBuilder builder = JsonProcessorBuilder.initBuilder(numbersFile, outputStream);
PathMatcher numbersPathMatcher = PathMatcherBuilder.builder()
.build();
PathMatcher usernamePathMatcher = PathMatcherBuilder.builder()
.field("requester").field("username")
.build();
AtomicReference<String> usernameValue = new AtomicReference<>();
JsonVisitor visitor = JsonVisitor.withTransformers(
List.of(
builder.mapEach(numbersPathMatcher, Integer.class, nr -> nr + 1),
builder.peek(usernamePathMatcher, String.class, e -> usernameValue.set(e.getElement()))
)
);
VisitJsonProcessor processor = builder.build();
processor.visit(visitor);
System.out.println(usernameValue.get());

© 2022 RWS
42
42 © 2022 RWS
Performance

© 2022 RWS
43 © 2022 RWS
43
54
ms
104
ms
352
ms
366
ms
904
ms
76
ms
148
ms
435
ms
482
ms
1498
ms
81
ms
155
ms
589
ms
1025
ms
4868
ms
ms
1000 ms
2000 ms
3000 ms
4000 ms
5000 ms
6000 ms
10MB 20MB 40MB 60MB 100MB
SUMMING ALL NUMBERS
Jackson Library Memory

© 2022 RWS
44 © 2022 RWS
44
92
ms
208
ms
699
ms
972
ms
1789
ms
135
ms
258
ms
853
ms
1324
ms
2013
ms
150
ms
295
ms
1067
ms
3541
ms
10747
ms
ms
2000 ms
4000 ms
6000 ms
8000 ms
10000 ms
12000 ms
10MB 20MB 40MB 60MB 100MB
+1 EACH NUMBER AND REWRITE JSON
Jackson Library Memory

IT Days - Parse huge JSON files in a streaming way.pptx

Recommandé

Recommandé

Contenu connexe

Similaire à IT Days - Parse huge JSON files in a streaming way.pptx

Similaire à IT Days - Parse huge JSON files in a streaming way.pptx (20)

Dernier

Dernier (20)

IT Days - Parse huge JSON files in a streaming way.pptx

Notes de l'éditeur