spark-user mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From Matthias Niehoff <matthias.nieh...@codecentric.de>
Subject Re: How spark decides whether to do BroadcastHashJoin or SortMergeJoin
Date Fri, 22 Jul 2016 08:49:31 GMT
Hi,

there is a property you can set. Quoting the docs (
http://spark.apache.org/docs/latest/sql-programming-guide.html#other-configuration-options
)

spark.sql.autoBroadcastJoinThreshold 10485760 (10 MB) Configures the
maximum size in bytes for a table that will be broadcast to all worker
nodes when performing a join. By setting this value to -1 broadcasting can
be disabled.

2016-07-20 10:07 GMT+02:00 raaggarw <raaggarw@adobe.com>:

> Hi,
>
> How spark decides/optimizes internally as to when it needs to a
> BroadcastHashJoin vs SortMergeJoin? Is there anyway we can guide from
> outside or through options which Join to use?
> Because in my case when i am trying to do a join, spark makes that join as
> BroadCastHashJoin internally and when join is actually being executed it
> waits for broadcast to be done (which is big data), resulting in timeout.
> I do not want to increase value of timeout i.e.
> "spark.sql.broadcastTimeout". Rather i want this to be done via
> SortMergeJoin. How can i enforce that?
>
> Thanks
> Ravi
>
>
>
> --
> View this message in context:
> http://apache-spark-user-list.1001560.n3.nabble.com/How-spark-decides-whether-to-do-BroadcastHashJoin-or-SortMergeJoin-tp27369.html
> Sent from the Apache Spark User List mailing list archive at Nabble.com.
>
> ---------------------------------------------------------------------
> To unsubscribe e-mail: user-unsubscribe@spark.apache.org
>
>


-- 
Matthias Niehoff | IT-Consultant | Agile Software Factory  | Consulting
codecentric AG | Zeppelinstr 2 | 76185 Karlsruhe | Deutschland
tel: +49 (0) 721.9595-681 | fax: +49 (0) 721.9595-666 | mobil: +49 (0)
172.1702676
www.codecentric.de | blog.codecentric.de | www.meettheexperts.de |
www.more4fi.de

Sitz der Gesellschaft: Solingen | HRB 25917| Amtsgericht Wuppertal
Vorstand: Michael Hochgürtel . Mirko Novakovic . Rainer Vehns
Aufsichtsrat: Patric Fedlmeier (Vorsitzender) . Klaus Jäger . Jürgen Schütz

Diese E-Mail einschließlich evtl. beigefügter Dateien enthält vertrauliche
und/oder rechtlich geschützte Informationen. Wenn Sie nicht der richtige
Adressat sind oder diese E-Mail irrtümlich erhalten haben, informieren Sie
bitte sofort den Absender und löschen Sie diese E-Mail und evtl.
beigefügter Dateien umgehend. Das unerlaubte Kopieren, Nutzen oder Öffnen
evtl. beigefügter Dateien sowie die unbefugte Weitergabe dieser E-Mail ist
nicht gestattet

Mime
View raw message