Coder Social home page Coder Social logo

al118345 / tipologia_uoc Goto Github PK

View Code? Open in Web Editor NEW
2.0 3.0 1.0 5.72 MB

La temática elegida para nuestro trabajo a sido la actual sobre el Coronavirus o COVID-19. Este virus ha entrado en la vida de todas las personas del planeta desde hace unos pocos meses, llevando su letalidad a parar las actividades normales de todo tipo (trabajos, rutinas…). En la actualidad, este es un tema recurrente y sobre el que se tiene información casi las 24 horas del día, debido a su notoriedad y magnitud. En cuanto a las fuentes elegidas, se ha seleccionado la web oficial del gobierno de España y la web Worldometers como fuentes estadísticas. Ambas webs proporcionan datos actualizados del virus, la primera de España y la segunda a nivel mundial. De esta forma, se consideran fuentes fiables debido a que, en la primera, el gobierno es el que proporcionaría los datos; y la segunda debido a que, tras realizar un proceso de investigación, se ha visto que los datos que utilizan se corresponden con los de los gobiernos correspondientes. Además, hemos utilizado Twitter como fuente textual, una red sociales en la que se puede recolectar datos de forma más sencilla y, sobre todo, inmediata, necesario para establecer correlaciones temporales entre la evolución del virus y la opinión del mismo de la sociedad. Esta plataforma permite él envió de mensajes en texto plano de corta longitud por parte de los usuarios, con un máximo de 280 caracteres. Estos mensajes, llamados tweets, se muestran en la página principal del usuario y pueden ser capturados a través de una API proporcionada por la propia red social.

Python 100.00%

tipologia_uoc's Introduction

UOC Tipologia de Datos

Getting Started

La temática elegida para nuestro trabajo a sido la actual sobre el Coronavirus o COVID-19. Este virus ha entrado en la vida de todas las personas del planeta desde hace unos pocos meses, llevando su letalidad a parar las actividades normales de todo tipo (trabajos, rutinas…). En la actualidad, este es un tema recurrente y sobre el que se tiene información casi las 24 horas del día, debido a su notoriedad y magnitud.

En cuanto a las fuentes elegidas, se ha seleccionado la web oficial del gobierno de España y la web Worldometers como fuentes estadísticas. Ambas webs proporcionan datos actualizados del virus, la primera de España y la segunda a nivel mundial. De esta forma, se consideran fuentes fiables debido a que, en la primera, el gobierno es el que proporcionaría los datos; y la segunda debido a que, tras realizar un proceso de investigación, se ha visto que los datos que utilizan se corresponden con los de los gobiernos correspondientes.

Además, hemos utilizado Twitter como fuente textual, una red sociales en la que se puede recolectar datos de forma más sencilla y, sobre todo, inmediata, necesario para establecer correlaciones temporales entre la evolución del virus y la opinión del mismo de la sociedad.

Esta plataforma permite él envió de mensajes en texto plano de corta longitud por parte de los usuarios, con un máximo de 280 caracteres. Estos mensajes, llamados tweets, se muestran en la página principal del usuario y pueden ser capturados a través de una API proporcionada por la propia red social.

Files

En este repositorio se pueden encontrar los siguientes ficheros:

  • Carpeta Code En esta carpeta se recogen los ficheros que conforman el código total utilizado para la creación del dataset final. Los ficheros que se encuentran dentro de la misma son:

    • Tweepy.py Este fichero recoge el código que ejecuta el web scraping y recoge los tweets, así como la formación del dataset final.

    • autenticate.py Este archivo es un fichero auxiliar donde se referencian las credenciales para acceder a la API de Twitter y obtener los tweets.

  • chromedriver.exe Este ejecutable es necesario para la realización del web scraping en el código (debe estar en consonancia con la versión de Google Chrome que se posea).

  • base_de_datos_covid.csv Este fichero recogería el dataset final tras la ejecución del código mencionado.

  • requirements.txt Este archivo menciona los paquetes Python necesarios para ejecutar el código.

Prerequisites

tweepy
bs4
selenium
time
pandas

Installing

Para ejecutar este proyecto es necesario ejecutar el siguiente comando y añadir las credenciales de acceso a la api de twitter.

python get-pip.py install -r requirements.txt

Versioning

For the versions available, see the tags on this repository.

Authors

  • Roberto Alexander Cerviño Cortinez
  • Rubén Pérez Ibáñez

License

Released Under CC BY-SA 4.0 License

tipologia_uoc's People

Contributors

al118345 avatar alexcc05 avatar

Stargazers

 avatar  avatar

Watchers

James Cloos avatar  avatar  avatar

Forkers

alexcc05

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.