Загрузка данных NOSQL в Spark Nuckes -- json поле с участием apache-spark поле с участием apache-spark-sql пол Связанный проблема

Loading NOSQL data into Spark nodes


1
vote

проблема

русский

Я пытаюсь понять, что происходит, когда я загружаю данные в искру от источника NoSQL. т.е. Постарается ли это загрузить записи в драйвер, а затем распределить его на рабочие узлы, или он будет загружать записи во всех рабочих узлах одновременно? Отказ В основном есть ли способ загружать данные параллельно, если да, как убедиться, что такая же запись не обрабатывается более чем одним узлом? Если это не параллельный процесс, будет писать тот же JSON в справку файла ".json"? (При условии, что каждая строка является записью)

Английский оригинал

I am trying to understand what happens when I load data into Spark from a NoSQL source. ie. Will it try to load the records into the driver and then distribute it to the worker nodes OR will it load records into all the worker nodes simultaneously? . Basically is there any way to load data in parallel if yes, how to ensure the same record is not processed by more than one node? If it is not a parallel process would writing the same json into a ".json" file help?(provided each line is a record)

</div
        

Список ответов

1
 
vote
vote
Лучший ответ
 
<Р> Он всегда будет загружать непосредственно к рабочим. В зависимости от источника данных и как она хранится, это может быть возможным, чтобы быть загружены параллельно. Когда данные загружаются данные будут sharded с непересекающимися строк, так что вам не придется беспокоиться об обработке одни и те же данные дважды. Формат файла будет иметь никакого значения. Какой источник данных вы загружаетесь из (Монго, Cassandra, HBase)? Я могу дать лучший ответ, если вы скажете мне исходную систему.
 

It will always load directly to the workers. Depending on the source of the data and how it is stored, it can be possible to be loaded in parallel. When the data is being loaded, the data will be sharded with non-overlapping rows, so you won't have to worry about processing the same data twice. The file format will be irrelevant. Which data source are you loading from (mongo, cassandra, hbase)? I can give a better answer if you tell me the source system.

</div
 
 
 
 

Связанный проблема

3  Расширение файла для формата импорта / экспорта JSON  ( File extension for json import export format ) 
Официальное расширение файла для файла, содержащего данные JSON, является <Код> .json . Однако после некоторого использования Mongodb я понимаю, что это расши...

0  Объедините несколько столов для ответа JSON в Django Read Framework  ( Combine multiple tables for a json response in django rest framework ) 
Я использую Django Read Framework для моего serializers . Мне нужно создать веб-сервис, который сочетает в себе поля в трех таблицах и дает JSON. У меня ес...

-1  РАСПИСАНИЕ ДЖОНСКИЙ РАССЫЛКИ С ИСПОЛЬЗОВАНИЕМ GSON  ( Json array parsing using gson ) 
У меня есть следующий ответ JSON как: {"StatusCode": 2, "error_fields": [{"User_:« xxx »}, {" пароль ":" yyy "}]}, и я должен разобрать этот ответ, использу...

0  GoLang Post Возврат Джосон ответ  ( Golang post return json response ) 
Я пытаюсь сделать запрос на мой (Magento) Weberver с помощью Golang. Мне удалось сделать запрос на пост, но, однако, я не получаю тот же ответ, я получаю пр...

0  Как получить все поля из запроса DIO в трепетаре  ( How to get all fields from dio request in flutter ) 
Я использую Dio, чтобы получить запрос от этой API: API Пример Ответ похож на: <код> { "count": 87, "next": "https://swapi.co/api/people/?page=2", "pr...

3  Удалить элемент от JsonResult в C #  ( Remove an element from jsonresult in c sharp ) 
У меня есть <код> JsonResult объект для возврата из метода MVC, но мне нужно удалить один элемент от него перед отправкой. <Сильное> Обновление: Я пытаюс...

3  Получение Facebook Page Feed (используя график API) в ASP.NET, приема ошибки «неподдерживаемый браузер»  ( Getting facebook page feed using graph api in asp net receiving error unsu ) 
Я пытаюсь получить Facebook Page Feed (публичные посты), которые не требуют какого-либо токена доступа. Вот URL https://www.facebook.com/feeds/page.php ? фор...

0  Динамическая встроенная схема на основе типа  ( Dynamic embedded schema based on type ) 
У меня есть поле JSON / MAP в базе данных, которые на самом деле могут удерживать 3 вида объектов на основе поля типа, определяют в таблице Так что структур...

4  JSON и CARIONWAVE IPHONE проблема [закрыто]  ( Json and carrierwave iphone problem ) 
<в сторону CLASS = "S-NEWACTS S-WELTIVE__info JS-Post-New Imide MB16« Роль = «Статус»> <Путь d = "M15 6.38A6.48 6.48 0 007.78. 04H-.02A6.49 6.49 0 002.05 ...

0  Как создать запрос на поставку в Python для следующего JSON  ( How to create a put request in python for the following json ) 
У меня есть корпус JSON, как это: <код> ' { "users" : [ { "dn" : null, "dns_domain" : null, "domain" : "UNIX_USERS", "email" : null, "enabled" : true, "ex...

7  Используя API WordPress JSON, чтобы получить пользовательское поле (изображение)  ( Using the wordpress json api to get custom field image ) 
Я пытаюсь динамически загружать изображения из определенного типа сообщения. Я использовал передовые пользовательские поля плагина для прикрепления поля изобр...

0  Как показать знак на библиотеке Tapku для данных JSON, которые содержат дату начала и дату окончания?  ( How to show mark on tapku library for json data which contain start date and end ) 
Я погрузился о том, как отметить дату в Tapku Library. По их словам, у меня есть код ниже для JSON, я получаю, но он показывает маркировку либо целую календую...

1  Как байтовые строки могут быть хорошо храниться? - не Json Serializable -  ( How can byte strings be stored well not json serializable ) 
для проекта, я собираю несколько инфракрасных команд, используя датчик с помощью Easy модуль Python . Я получаю байтовые строки, как эти: <код> command...

2  Как высвобождать тело брокерского сообщения в узле JS?  ( How to deserialize the body of a brokered message in node js ) 
Я реализую Socket.io Server в узле JS (Sockeio.js) для моего проекта Windows Azure. Мой работник роль находится в C #. И я отправляю брокерское сообщение от р...

9  Загрузка FLEXIGRID для jQuery с json String  ( Loading flexigrid for jquery with json string ) 
Я пытаюсь загрузить FLEXIGRID с помощью строки JSON, которая возвращается службой WCF. Мой сервис имеет <код> public string GetContacts(string CustomerID) ...

Связанный проблема

3  Расширение файла для формата импорта / экспорта JSON 
0  Объедините несколько столов для ответа JSON в Django Read Framework 
-1  РАСПИСАНИЕ ДЖОНСКИЙ РАССЫЛКИ С ИСПОЛЬЗОВАНИЕМ GSON 
0  GoLang Post Возврат Джосон ответ 
0  Как получить все поля из запроса DIO в трепетаре 
3  Удалить элемент от JsonResult в C # 
3  Получение Facebook Page Feed (используя график API) в ASP.NET, приема ошибки «неподдерживаемый браузер» 
0  Динамическая встроенная схема на основе типа 
4  JSON и CARIONWAVE IPHONE проблема [закрыто] 
0  Как создать запрос на поставку в Python для следующего JSON 
7  Используя API WordPress JSON, чтобы получить пользовательское поле (изображение) 
0  Как показать знак на библиотеке Tapku для данных JSON, которые содержат дату начала и дату окончания? 
1  Как байтовые строки могут быть хорошо храниться? - не Json Serializable - 
2  Как высвобождать тело брокерского сообщения в узле JS? 
9  Загрузка FLEXIGRID для jQuery с json String