Coder Social home page Coder Social logo

dracula's Introduction

Dracula: a brief analysis to the most common words in Dracula, by Bram Stoker

This notebook is also available in Dev Community, both portuguese and english 🌎.

Check this notebook out in english 😉.


Este notebook também está disponível em forma de artigo no Dev Community, tanto em português como em inglês 🌎.

Confira esse notebook em português 😉.


💻 Sobre o projeto

Considerado como um marco da literatura gótica, o icônico livro Drácula, escrito em 1897 por Bram Stoker, desperta até hoje o fascínio das pessoas por todo o mundo. A fim de consolidar os conhecimentos iniciais do Apache Spark, desenvolveu-se este notebook para analisar as principais palavras mais comuns encontradas neste clássico livro.

O processo de análise consiste nas seguintes etapas:

  1. Download do livro Drácula, por Bram Stoker;
  2. Inicialização do Apache Spark e leitura do livro;
  3. Download das stopwords encontradas no idioma inglês;
  4. Extração individual das palavras em cada uma das linhas;
  5. Explodindo a lista de palavras em colunas no DataFrame;
  6. Transformando todas as palavras em minúsculas;
  7. Eliminação de pontuação;
  8. Remoção de valores nulos;
  9. Remoção das stopwords;
  10. Análise das palavras mais comuns;

🛠 Tecnologias

A análise foi desenvolvida com a linguagem python, utilizando o Jupyter Notebook no Google Colab, assim como a biblioteca PySpark para a limpesa e análise dos dados.

dracula's People

Contributors

geazi-anc avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.