al118345 / tipologia_uoc Goto Github PK

View Code? Open in Web Editor NEW

La temática elegida para nuestro trabajo a sido la actual sobre el Coronavirus o COVID-19. Este virus ha entrado en la vida de todas las personas del planeta desde hace unos pocos meses, llevando su letalidad a parar las actividades normales de todo tipo (trabajos, rutinas…). En la actualidad, este es un tema recurrente y sobre el que se tiene información casi las 24 horas del día, debido a su notoriedad y magnitud. En cuanto a las fuentes elegidas, se ha seleccionado la web oficial del gobierno de España y la web Worldometers como fuentes estadísticas. Ambas webs proporcionan datos actualizados del virus, la primera de España y la segunda a nivel mundial. De esta forma, se consideran fuentes fiables debido a que, en la primera, el gobierno es el que proporcionaría los datos; y la segunda debido a que, tras realizar un proceso de investigación, se ha visto que los datos que utilizan se corresponden con los de los gobiernos correspondientes. Además, hemos utilizado Twitter como fuente textual, una red sociales en la que se puede recolectar datos de forma más sencilla y, sobre todo, inmediata, necesario para establecer correlaciones temporales entre la evolución del virus y la opinión del mismo de la sociedad. Esta plataforma permite él envió de mensajes en texto plano de corta longitud por parte de los usuarios, con un máximo de 280 caracteres. Estos mensajes, llamados tweets, se muestran en la página principal del usuario y pueden ser capturados a través de una API proporcionada por la propia red social.

Python 100.00%

tipologia_uoc's Introduction

UOC Tipologia de Datos

Getting Started

En cuanto a las fuentes elegidas, se ha seleccionado la web oficial del gobierno de España y la web Worldometers como fuentes estadísticas. Ambas webs proporcionan datos actualizados del virus, la primera de España y la segunda a nivel mundial. De esta forma, se consideran fuentes fiables debido a que, en la primera, el gobierno es el que proporcionaría los datos; y la segunda debido a que, tras realizar un proceso de investigación, se ha visto que los datos que utilizan se corresponden con los de los gobiernos correspondientes.

Además, hemos utilizado Twitter como fuente textual, una red sociales en la que se puede recolectar datos de forma más sencilla y, sobre todo, inmediata, necesario para establecer correlaciones temporales entre la evolución del virus y la opinión del mismo de la sociedad.

Esta plataforma permite él envió de mensajes en texto plano de corta longitud por parte de los usuarios, con un máximo de 280 caracteres. Estos mensajes, llamados tweets, se muestran en la página principal del usuario y pueden ser capturados a través de una API proporcionada por la propia red social.

Files

En este repositorio se pueden encontrar los siguientes ficheros:

Carpeta Code En esta carpeta se recogen los ficheros que conforman el código total utilizado para la creación del dataset final. Los ficheros que se encuentran dentro de la misma son:
- Tweepy.py Este fichero recoge el código que ejecuta el web scraping y recoge los tweets, así como la formación del dataset final.
- autenticate.py Este archivo es un fichero auxiliar donde se referencian las credenciales para acceder a la API de Twitter y obtener los tweets.
chromedriver.exe Este ejecutable es necesario para la realización del web scraping en el código (debe estar en consonancia con la versión de Google Chrome que se posea).
base_de_datos_covid.csv Este fichero recogería el dataset final tras la ejecución del código mencionado.
requirements.txt Este archivo menciona los paquetes Python necesarios para ejecutar el código.

Prerequisites

tweepy
bs4
selenium
time
pandas

Installing

Para ejecutar este proyecto es necesario ejecutar el siguiente comando y añadir las credenciales de acceso a la api de twitter.

python get-pip.py install -r requirements.txt

Versioning

For the versions available, see the tags on this repository.

Authors

Roberto Alexander Cerviño Cortinez
Rubén Pérez Ibáñez

License

Released Under CC BY-SA 4.0 License

Recommend Projects

al118345 / tipologia_uoc Goto Github PK

tipologia_uoc's Introduction

UOC Tipologia de Datos

Getting Started

Files

Prerequisites

Installing

Versioning

Authors

License

tipologia_uoc's People

Contributors

Stargazers

Watchers

Forkers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent