Зажигая реализация для чувствительного к местности -- apache-spark поле с участием locality-sensitive-hash пол Связанный проблема

Spark implementation for Locality Sensitive Hashing


2
vote

проблема

русский

Как часть проекта, который я делаю для учебы, я ищу способ использовать функцию хеширования LSH с искрой. Есть ли способ сделать это?

Английский оригинал

As part of a project I'm doing for my studies I'm looking for a way to use the hashing function of LSH with Spark. Is there any way to do so?

</div
     

Список ответов

2
 
vote
vote
Лучший ответ
 

Попробуйте это реализацию:

https://github.com/mrsqueze/spark-hash

цитата из Readme, «Эта реализация в значительной степени основана на алгоритме, описанном в главе 3 добыча массивных наборов данных», которое имеет большое описание LSH и Minhashing.

 

Try this implementation:

https://github.com/mrsqueeze/spark-hash

Quoting from the README, "this implementation was largely based on the algorithm described in chapter 3 of Mining of Massive Datasets" which has a great description of LSH and minhashing.

</div
 
 
   
   
1
 
vote

Недавно выпущенная версия Spark (2.1.0) обеспечивает встроенную поддержку LSH, но, по-видимому, только в Scala API (не в Pyspark еще).

 

The recently released version of Spark (2.1.0) provides built-in support for LSH, but apparently only in the Scala API (not in PySpark yet).

</div
 
 

Связанный проблема

0  Pyspark: Как управлять, какие узлы работают рабочие места?  ( Pyspark how to control which nodes jobs run on ) 
Я запускаю некоторые анализы на искровой кластере, который проявляет некоторое странное поведение - некоторые из 20+ узлов иногда станут не отвечать на ответ....

1  Загрузка данных NOSQL в Spark Nuckes  ( Loading nosql data into spark nodes ) 
Я пытаюсь понять, что происходит, когда я загружаю данные в искру от источника NoSQL. т.е. Постарается ли это загрузить записи в драйвер, а затем распределить...

1  Исквое взаимодействие с кафкой с двумя разными принципами  ( Spark interaction with kafka with two different principals ) 
У меня есть следующий вопрос. Я использую искренную структурированную потоковую работу, которая читает из одной темы и пишет на другую тему того же кишечного ...

1  dataframe или sqlctx (sqlcontext) сгенерировали "попытка вызвать пакет" ошибка  ( Dataframe or sqlctx sqlcontext generated trying to call a package error ) 
Я использую Spark 1.3.1. В Pyspark я создал Dataframe от RDD и зарегистрировал схему, что-то вроде этого: <код> dataLen=sqlCtx.createDataFrame(myrdd, ["id",...

16  Ошибка теста SBT: Java.lang.noSuchmethodError: net.jpountz.lz4.lz4lockinputtream  ( Sbt test error java lang nosuchmethoderror net jpountz lz4 lz4blockinputstream ) 
Получение ниже исключения, когда я пытался выполнить тесты подразделения для моего светового потокового кода на SBT Windows, используя STALATEST. sbt teston...

3  Сравните 2 Spark RDD, чтобы убедиться, что значение сначала в диапазоне второго RDD  ( Compare 2 spark rdd to make sure that value from first is in the range of the se ) 
Есть 2 очень большой RDD (каждый имеет больше, чем Records Milion), первый это: <код> rdd1.txt(name,value): chr1 10016 chr1 10017 chr1 10018 ...

-1  Apache Spark: Создание динамической даты и временного фильтра на основе входов пользовательского интерфейса  ( Apache spark build dynamic date and time filter based on the ui inputs ) 
ui, который позволяет пользователю выбирать год, месяц, квартал, ежегодно, одноместный, первую / вторую половину года и многое другое с действительными комбин...

0  Как отбросить разделы от внешнего стола улья в искру без включения Hivesupport в Spark Session  ( How to drop partitions from hive external table in spark without enabling hivesu ) 
Я хотел бросить перегородки улей в Spark 2.0, но при создании искренности я не хотел включить поддержку улей, так как требуется много библиотек .. Есть ли спо...

0  Выберите JVM при запуске зажигания  ( Select jvm when running spark job ) 
Как я могу пройти путь Java, чтобы выпить, чтобы выбрать JVM, который не по умолчанию (не в Java_home)? Мне не разрешено устанавливать какие-либо env vars в м...

2  Если данные Spark будут кэшировать Off-Heap, у него будет спецификация байта?  ( If sparks data will be cached off heap will it have a byte level specification ) 
Я узнал из разных блогов, особенно этот один , что в ближайшее время Apache Spark будет кэшировать кучу Java (в public class AndroidAudioDevice { AudioT...

-1  Лучший способ проектирования и параллелизма зажигания в Scala [закрыто]  ( Best way to design and parallelize a spark application in scala ) 
<в сторону CLASS = "S-NEWACTS S-WELTIVE__info JS-Post-New Imide MB16« Роль = «Статус»> закрыт . Этот вопрос находится на основе мнения . В настоящее вре...

1  Оптимизатор Spark Catalyst отличающий исключение  ( Spark catalyst optimizer cast exception ) 
У меня есть 2 (<код> Foo и <код> Bar ) классов, каждый реализует один интерфейс. Приложение имеет метод, который проверяет некоторые условия для интерфейсо...

1  Как я могу избежать проблемы OOM во время записи огромных данных в формате ORC с помощью Pyspark?  ( How can i avoid oom issue while writing huge dataframes in orc format using pysp ) 
У меня есть два скрипта: а б. В скрипте «A» два файла CSV прочитаются на две кадры данных, а затем соединены в результирующем кадр данных, которые затем запис...

2  Искра оболочки ошибка: ERROR SparkDeploySchedulerBackend: В ответ на просьбу удалить несуществующую исполнителя 11  ( Spark shell error error sparkdeployschedulerbackend asked to remove non exist ) 
<Р> Всякий раз, когда я начинаю искровой скорлупу на mapr Песочница я продолжаю получать эту ошибку <код> ERROR SparkDeploySchedulerBackend: Asked to remove ...

1  Spark Streaming MapWithState не удается через 48+ часов с вопросом записи контрольной точки  ( Spark streaming mapwithstate fails after 48 hours with checkpoint write issue ) 
У нас есть программа для искровой потоковой передачи, которая читает вход от KAFKA, используя CONTRESTIRECTSTREAM и создает композитный объект на основе общ...

Связанный проблема

0  Pyspark: Как управлять, какие узлы работают рабочие места? 
1  Загрузка данных NOSQL в Spark Nuckes 
1  Исквое взаимодействие с кафкой с двумя разными принципами 
1  dataframe или sqlctx (sqlcontext) сгенерировали "попытка вызвать пакет" ошибка 
16  Ошибка теста SBT: Java.lang.noSuchmethodError: net.jpountz.lz4.lz4lockinputtream 
3  Сравните 2 Spark RDD, чтобы убедиться, что значение сначала в диапазоне второго RDD 
-1  Apache Spark: Создание динамической даты и временного фильтра на основе входов пользовательского интерфейса 
0  Как отбросить разделы от внешнего стола улья в искру без включения Hivesupport в Spark Session 
0  Выберите JVM при запуске зажигания 
2  Если данные Spark будут кэшировать Off-Heap, у него будет спецификация байта? 
-1  Лучший способ проектирования и параллелизма зажигания в Scala [закрыто] 
1  Оптимизатор Spark Catalyst отличающий исключение 
1  Как я могу избежать проблемы OOM во время записи огромных данных в формате ORC с помощью Pyspark? 
2  Искра оболочки ошибка: ERROR SparkDeploySchedulerBackend: В ответ на просьбу удалить несуществующую исполнителя 11 
1  Spark Streaming MapWithState не удается через 48+ часов с вопросом записи контрольной точки 



© 2021 www.qaru.top All Rights Reserved. Q&A House все права защищены


Licensed under cc by-sa 3.0 with attribution required.