Spark Scalaдагы DataFrame деген эмне?
Spark Scalaдагы DataFrame деген эмне?

Video: Spark Scalaдагы DataFrame деген эмне?

Video: Spark Scalaдагы DataFrame деген эмне?
Video: Введение в Data Science | Уроки Цифровых Навыков 2024, Апрель
Anonim

А Spark DataFrame агрегаттарды чыпкалоо, топтоо же эсептөө операцияларын камсыз кылган жана аталган тилкелерге бөлүнгөн маалыматтардын бөлүштүрүлгөн жыйнагы. Spark SQL. DataFrames структураланган маалымат файлдарынан, учурдагы RDDлерден, Hiveдеги таблицалардан же тышкы маалымат базаларынан түзүлүшү мүмкүн.

Ошо сыяктуу эле, сиз Scalaдагы DataFrame деген эмне деп сурасаңыз болот?

Аты аталган тилкелерде уюштурулган маалыматтардын бөлүштүрүлгөн жыйнагы. А DataFrame Spark SQLдеги реляциялык таблицага барабар. ичинен тилкени тандоо үчүн маалымат алкагы колдонуу ыкмасын колдонуңуз Scala жана Javaдагы col.

Scala менен жарыктын кандай пайдасы бар? ( жарык болуп саналат колдонулган ичинде Spark литералдык маанини жаңы тилкеге айландыруу үчүн.) Анткени concat аргумент катары мамычаларды алат жарык болушу керек колдонулган бул жерде.

Жогорудагылардан тышкары, учкундагы RDD менен DataFrame ортосунда кандай айырма бар?

Spark RDD API'лер - An RDD Туруктуу бөлүштүрүлгөн маалымат топтомдорун билдирет. Бул окуу үчүн гана бөлүм жазуулардын жыйнагы. RDD негизги маалымат структурасы болуп саналат Spark . Spark ичиндеги DataFrame иштеп чыгуучуларга жогорку деңгээлдеги абстракцияга мүмкүндүк берип, бөлүштүрүлгөн маалыматтардын жыйнагына структураны таңуулоого мүмкүндүк берет.

Spark менен Column эмне кылат?

Spark with Column () функциясы болуп саналат атын өзгөртүү, маанини өзгөртүү, учурдагы DataFrame тилкесинин маалымат түрүн өзгөртүү үчүн колдонулат жана ошондой эле болот жаңы тилке түзүү үчүн колдонулушу керек, бул билдирүүдө, I болот менен кеңири колдонулган DataFrame мамыча операциялары аркылуу көрсөтөт Scala жана Pyspark мисалдары.

Сунушталууда: