Мазмуну:

Кантип тизмеден PySpark DataFrame жасасам болот?
Кантип тизмеден PySpark DataFrame жасасам болот?

Video: Кантип тизмеден PySpark DataFrame жасасам болот?

Video: Кантип тизмеден PySpark DataFrame жасасам болот?
Video: КАРА ТИЗМЕДЕН кантип чыгуу болот! 2024, Май
Anonim

Мен кортеждердин тизмесинен DataFrame түзүү үчүн бул кадамдарды аткарып жатам:

  1. Түзүү а тизме кортеждердин. Ар бир кортежде жашы менен адамдын аты камтылган.
  2. Түзүү тартып RDD тизме жогоруда.
  3. Convert бир катарга ар бир кортеж.
  4. Түзүү а DataFrame sqlContext жардамы менен RDD боюнча createDataFrame колдонуу менен.

Муну эске алуу менен, DataFrameди Pythonдогу тизмеге кантип айландырса болот?

  1. 1-кадам: DataFrame.to_numpy() аркылуу Dataframeди уя салынган Numpy массивине айландырыңыз, б.а.
  2. 2-кадам: 2D Numpy массивин тизмелердин тизмесине айландырыңыз.
  3. 1-кадам: Сатарларды мамычалар жана мамычаларды саптар катары айландыруу үчүн dataframeди которуңуз.
  4. 2-кадам: DataFrame.to_numpy() аркылуу Dataframeди уя салынган Numpy массивине айландырыңыз

Кошумча, Spark DataFrame деген эмне? А Spark DataFrame агрегаттарды чыпкалоо, топтоо же эсептөө операцияларын камсыз кылган жана аталган тилкелерге бөлүнгөн маалыматтардын бөлүштүрүлгөн жыйнагы. Spark SQL. DataFrames структураланган маалымат файлдарынан, учурдагы RDDлерден, Hiveдеги таблицалардан же тышкы маалымат базаларынан түзүлүшү мүмкүн.

Ошондой эле, PySpark SQL деген эмнени билесизби?

Spark SQL болуп саналат Spark структураланган маалыматтарды иштетүү модулу. Ал DataFrames деп аталган программалоо абстракциясын камсыз кылат жана бөлүштүрүлгөн катары да иштей алат SQL суроо кыймылдаткычы. Ал өзгөртүлбөгөн Hadoop Hive сурамдарын учурдагы жайгаштырууларда жана маалыматтарда 100 эсе тезирээк иштетүүгө мүмкүндүк берет.

Spark DataFrames өзгөрүлбөйбү?

In Spark сен кыла албайсың - DataFrames болуп саналат өзгөрүлгүс . Сиз колдонушуңуз керек.

Сунушталууда: