a01f59156afba3396aa7deaafdafe254ea1053d2
[repo] / excess-deaths / README.md
1 # Excess Deaths During the Coronavirus Pandemic
2
3 **Last update**: As of Jan. 18, 2021 we are no longer updating this excess deaths dataset. We have updated data through the end of 2020 or as far as available.
4
5 The New York Times is releasing data that documents the number of deaths from all causes that have occurred during the coronavirus pandemic for 32 countries. We are compiling this time series data from national and municipal health departments, vital statistics offices and other official sources in order to better understand the true toll of the pandemic and provide a record for researchers and the public.
6
7 Official Covid-19 death tolls offer a limited view of the impact of the outbreak because they often exclude people who have not been tested and those who died at home. All-cause mortality is widely used by demographers and other researchers to understand the full impact of deadly events, including epidemics, wars and natural disasters. The totals in this data include deaths from Covid-19 as well as those from other causes, likely including people who could not be treated or did not seek treatment for other conditions. 
8
9 We have used this data to produce [graphics tracking](https://www.nytimes.com/interactive/2020/04/21/world/coronavirus-missing-deaths.html) [the oubreak’s toll](https://www.nytimes.com/interactive/2020/06/10/world/coronavirus-history.html) and stories about [the United States](https://www.nytimes.com/interactive/2020/05/05/us/coronavirus-death-toll-us.html), [Ecuador](https://www.nytimes.com/2020/04/23/world/americas/ecuador-deaths-coronavirus.html), [Russia](https://www.nytimes.com/2020/05/11/world/europe/coronavirus-deaths-moscow.html), [Turkey](https://www.nytimes.com/2020/04/20/world/middleeast/coronavirus-turkey-deaths.html), [Sweden](https://www.nytimes.com/interactive/2020/05/15/world/europe/sweden-coronavirus-deaths.html) and [other countries](https://www.nytimes.com/2020/05/12/world/americas/latin-america-virus-death.html). We would like to thank a number of demographers and other researchers, listed at the end, who have provided data or helped interpret it.
10
11 ## Country and City-Level Data
12
13 The number of all-cause deaths recorded in each area, by week or month, can be found in the **[deaths.csv](deaths.csv)** file. ([Raw CSV](https://raw.githubusercontent.com/nytimes/covid-19-data/master/excess-deaths/deaths.csv)) For weekly data, the first and last weeks of the year, which are often partial weeks, were excluded.
14
15 ```
16 country,placename,frequency,start_date,end_date,year,month,week,deaths,expected_deaths,excess_deaths,baseline
17 France,,weekly,2020-04-27,2020-05-03,2020,4,18,10498,10357,141,2010-2018 weekly average
18 ```
19
20 Some of the data is only available at the city level.
21
22 ```
23 country,placename,frequency,start_date,end_date,year,month,week,deaths,expected_deaths,excess_deaths,baseline
24 Turkey,Istanbul,weekly,2020-04-06,2020-04-12,2020,4,15,2193,1429,764,2018-2019 weekly average
25 ```
26
27
28 The deaths fields have the following definitions:
29
30 **deaths**: The total number of confirmed deaths recorded from any cause.  
31 **expected_deaths**: The baseline number of expected deaths, calculated from a historical average. See [expected deaths](#expected-deaths).  
32 **excess_deaths**: The number of deaths minus the expected deaths.  
33
34 The time fields have the following definitions:
35
36 **frequency**: Weekly or monthly, depending on how the data is recorded.  
37 **start_date**: The first date included in the period.  
38 **end_date**: The last date included in the period.  
39 **month**: Numerical month.  
40 **week**: Epidemiological week, which is a standardized way of counting weeks to allow for year-over-year comparisons. Most countries start epi weeks on Mondays, but others vary.  
41 **baseline**: The years used to calculate expected_deaths.  
42
43 ## Methodology
44
45 The data is the product of journalists in a number of countries who monitor official data releases and ask government officials for information. We have consulted with demographers, medical officials and local sources to confirm that this data is broadly representative of how many people have died. In some countries, the number of burials, hospital deaths or other factors are used to confirm that the underlying trends are representative.
46
47 But mortality data in the middle of a pandemic is not perfect. Many countries have not yet published any data on all-cause mortality. And during a pandemic, normal patterns of death registration may be disrupted, which could lead to changes in how many deaths are captured. 
48
49 Most of the countries in this dataset have widespread vital statistics coverage. But many low-income countries have [unreliable death registration systems](https://twitter.com/helleringer143/status/1261868447903948800), making it very difficult to assess their levels of excess mortality. A rough guide to the historical completeness of death registration systems by country is available from the United Nations:
50 https://unstats.un.org/unsd/demographic-social/crvs/documents/Website_final_coverage.xls
51
52 Some countries are publishing mortality data faster than normal in order to understand how mortality is changing. That means data, especially for recent time periods, may be revised. It is usually revised upwards as more deaths are reported.
53
54 Expected deaths  for [the United States](https://www.nytimes.com/interactive/2020/05/05/us/coronavirus-death-toll-us.html) were calculated with a simple model based on the number of all-cause deaths from 2015 to 2019 released by the Centers for Disease Control and Prevention, adjusted to account for trends, like population changes, over time.
55
56 Our analysis aims to show mortality statistics for as much of the country as possible, but it is limited to those states where mortality data is sufficiently complete.
57
58 Some states are so far behind in submitting death certificates to the C.D.C. that the C.D.C. does not recommend relying on their recent death reporting. In Pennsylvania and Ohio, for example, death reporting seems to be lagging far behind the normal rate all year, according to the C.D.C., even though their reporting is usually more timely, so we have excluded data from those states, in addition to Alaska, Connecticut, Louisiana, North Carolina, Puerto Rico, Rhode Island and West Virginia.
59
60 See [Data Sources](#data-sources) below for the source of data for each country and city in this dataset.
61
62 ## Expected Deaths
63
64 We have calculated an average number of expected deaths for each area based on historical data for the same time of year. These expected deaths are the basis for our [excess death calculations](https://www.nytimes.com/interactive/2020/04/21/world/coronavirus-missing-deaths.html), which estimate how many more people have died this year than in an average year.
65
66 To estimate expected deaths, we fit a linear model to the reported deaths in each country from earlier years to January 2020. The model has two components — a linear time trend to account for demographic changes and a smoothing spline to account for seasonal variation. For countries limited to monthly data, the model includes month as a fixed effect rather than using a smoothing spline. 
67
68 The number of expected deaths are not adjusted for how non-Covid-19 deaths may change during the outbreak, which will take some time to figure out. As countries impose control measures, deaths from causes like road accidents and homicides may decline. And people who die from Covid-19 cannot die later from [other causes](https://twitter.com/AndrewNoymer/status/1241620305350549504), which may reduce other causes of death. Both of these factors, if they play a role, would lead these baselines to understate, rather than overstate, the number of excess deaths.
69
70 The number of years used in the expected deaths calculation changes depending on what data is available. See Data Sources for the years used to calculate the baselines. 
71
72
73 ## Data Sources
74
75 **Austria**
76
77 Source: [Statistics Austria](http://www.statistik.at/web_de/statistiken/menschen_und_gesellschaft/bevoelkerung/gestorbene/index.html)  
78 Baseline years: 2015-2019  
79 Data frequency: weekly  
80
81 **Belgium**
82
83 Source: Sciensano publishes a [weekly report](https://covid-19.sciensano.be/fr/covid-19-situation-epidemiologique). More historical mortality data is from the [Belgian Mortality Monitoring](https://epistat.wiv-isp.be/momo/) dashboard.  
84 Baseline years: 2016-2019  
85 Data frequency: weekly  
86
87 **Bolivia**
88
89 Source: Civil Registry 
90 Baseline years: 2016-2019 
91 Data frequency:  monthly
92
93 **Brazil**
94
95 Source: [National Council of State Health Secretaries (CONASS)](https://www.conass.org.br/indicadores-de-obitos-por-causas-naturais/)  
96 Baseline years: 2015-2019  
97 Data frequency: weekly  
98
99 **Chile**
100
101 Source: [Data Portal of the Civil Registry and Identification Service](https://estadisticas.sed.srcei.cl/home)  
102 Baseline years: 2015-2019  
103 Data frequency: weekly  
104
105 **Colombia**
106
107 Source: [National Administrative Department of Statistics (DANE)](https://www.dane.gov.co/index.php/estadisticas-por-tema/demografia-y-poblacion/nacimientos-y-defunciones)  
108 Baseline years: 2015-2019  
109 Data frequency: weekly  
110
111 **Denmark**
112
113 Source: [Statistics Denmark](https://www.statbank.dk/dodc2)  
114 Baseline years: 2015-2019  
115 Data frequency: weekly  
116
117 **Ecuador**
118
119 Source: [General Direction of Civil Registry](https://www.registrocivil.gob.ec/cifras/)  
120 Baseline years: 2017-2019. 2019 data is only available for Jan.-April.  
121 Data frequency: monthly  
122
123 **Finland**
124
125 Source: [Statistics Finland](https://pxnet2.stat.fi/PXWeb/pxweb/en/Kokeelliset_tilastot/Kokeelliset_tilastot__vamuu_koke/statfin_vamuu_pxt_12ng.px/)  
126 Baseline years: 2015-2019  
127 Data frequency: weekly  
128
129 **France**
130
131 Source: INSEE (2018-2020 data can be found [here](https://www.insee.fr/fr/statistiques/4487988?sommaire=4487854))  
132 Baseline years: 2010-2019  
133 Data frequency: weekly  
134
135 **Germany**
136
137 Source: [Federal Statistics Office](https://www.destatis.de/EN/Themes/Society-Environment/Population/Deaths-Life-Expectancy/_node.html;jsessionid=91286BFEECCABAD3052B72D2C2760F99.internet8732)  
138 Baseline years: 2016-2019  
139 Data frequency: weekly  
140
141 **Jakarta, Indonesia**
142
143 Source: [Jakarta’s Department of Parks and Cemeteries](https://pertamananpemakaman.jakarta.go.id/v140/t15)  
144 Baseline years: 2010-2019  
145 Data frequency: monthly burials 
146
147 **Mumbai, India**
148
149 Source: Municipal Corporation of Greater Mumbai  
150 Baseline years: 2019  
151 Data frequency: monthly burials  
152
153 **Ireland**
154
155 Source: [Health Information and Quality Authority](https://www.hiqa.ie/sites/default/files/2020-07/Analysis-of-excess-all-cause-mortality-in-Ireland-during-the-COVID-19-epidemic.pdf)  
156 Baseline years: 2015-2019  
157 Data frequency: daily
158
159 **Israel**
160
161 Source: [Central Bureau of Statistics](https://www.cbs.gov.il/he/subjects/Pages/%D7%AA%D7%9E%D7%95%D7%AA%D7%94-%D7%95%D7%AA%D7%95%D7%97%D7%9C%D7%AA-%D7%97%D7%99%D7%99%D7%9D.aspx)  
162 Baseline years: 2015-2019  
163 Data frequency: weekly
164
165 **Italy**
166
167 Source: [The Italian National Institute of Statistics](https://www.istat.it/it/archivio/240401)  
168 Baseline years: 2015-2019 monthly average. Historical data is only available as a four-year average from January 1 through June 30.  
169 Data frequency: monthly  
170
171 **Tokyo, Japan**
172
173 Source: [Statistics of Tokyo](https://www.toukei.metro.tokyo.lg.jp/jsuikei/js-index2.htm)  
174 Baseline years: 2016-2019  
175 Data frequency: monthly  
176
177 **Mexico**
178
179 Source: [Mexican Government](https://www.insp.mx/micrositio-covid-19/boletin-estadistico-sobre-exceso-de-mortalidad-por-todas-las-causas-durante-la-emergencia-por-covid-19)  
180 Baseline years: 2015-2018  
181 Data frequency: weekly  
182
183 **Netherlands**
184
185 Source: [Statistics Netherlands](https://opendata.cbs.nl/#/CBS/en/dataset/70895ENG/table?ts=1588591754264)  
186 Baseline years: 2016-2019  
187 Data frequency: weekly  
188
189 **Norway**
190
191 Source: [Statistics Norway](https://www.ssb.no/statbank/table/07995/)  
192 Baseline years: 2015-2019  
193 Data frequency: weekly
194
195 **Peru**
196
197 Source: [Mortality Information System](https://www.minsa.gob.pe/defunciones/) SINADEF for 2017-2020; Health Ministry for 2016.  
198 Baseline years: 2017-2019  
199 Data frequency: monthly  
200
201 **Portugal**
202
203 Source: [Eurostat](https://ec.europa.eu/eurostat/web/population-demography-migration-projections/data/database)  
204 Baseline years: 2015-2019  
205 Data frequency: weekly  
206
207 **Moscow, Russia**
208
209 Source: [Moscow City Government](https://data.mos.ru/opendata/7704111479-dinamika-registratsii-aktov-grajdanskogo-sostoyaniya?pageNumber=13&versionNumber=3&releaseNumber=42&fbclid=IwAR23dK1YBLeGipw4UPg4hi_w6cDOE94fuZ0Z7lwx28u-rAZCEoqAAaIQpF8)  
210 Baseline years: 2015-2019  
211 Data frequency: monthly
212
213 **South Africa**
214
215 Source: [South African Medical Research Council](https://www.samrc.ac.za/reports/report-weekly-deaths-south-africa?bc=254)  
216 Baseline years: 2018-2019  
217 Data frequency: weekly  
218
219 **South Korea**
220
221 Source: [Statistics Korea](http://kosis.kr/statisticsList/statisticsListIndex.do?menuId=M_01_01&vwcd=MT_ZTITLE&parmTabId=M_01_01#SelectStatsBoxDiv)  
222 Baseline years: 2015-2019  
223 Data frequency: monthly    
224
225 **Spain**
226
227 Source: [Daily Mortality Surveillance System](https://momo.isciii.es/public/momo/dashboard/momo_dashboard.html#datos)
228 Baseline years: 2018-2019  
229 Data frequency: weekly 
230
231 **Sweden**
232
233 Source: [Statistics Sweden](https://www.scb.se/en/About-us/news-and-press-releases/statistics-sweden-to-publish-preliminary-statistics-on-deaths-in-sweden/)
234 Baseline years: 2015-2019  
235 Data frequency: weekly  
236
237 **Switzerland**
238
239 Source: [Federal Statistics Bureau](https://www.bfs.admin.ch/bfs/fr/home/statistiques/sante/etat-sante/mortalite-causes-deces.html)  
240 Baseline years: 2016-2019  
241 Data frequency: weekly  
242
243
244 **Thailand**
245
246 Sources: [Bureau of Registration Administration](https://www.cdg.co.th/website/en/industries/government/civil-registration-and-the-national-identification-card-system-the-bureau-of-registration-administration-the-department-of-provincial-administration-2/) [Department of Provincial Administration](https://www.dopa.go.th/main/web_index)  
247 Baseline years: 2015-2019  
248 Data frequency: monthly  
249
250 **United Kingdom**
251
252 Sources: [Office for National Statistics](https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/deaths/datasets/weeklyprovisionalfiguresondeathsregisteredinenglandandwales); [National Records of Scotland](https://www.nrscotland.gov.uk/covid19stats); [Northern Ireland Statistics and Research Agency](https://www.nisra.gov.uk/publications/weekly-deaths).  
253 Baseline years: 2010-2019  
254 Data frequency: weekly  
255
256
257 **United States**
258
259 Source: [Centers for Disease Control and Prevention](https://www.cdc.gov/nchs/nvss/vsrr/covid_weekly/)  
260 Baseline years: 2015-2019  
261 Data frequency: weekly  
262
263
264
265 ## Other Collections of All-Cause Mortality Data
266
267 [The Human Mortality Database](https://www.mortality.org/) includes recent all-cause deaths collected by demographers at the Max Planck Institute for Demographic Research and other institutions. [The Economist](https://github.com/TheEconomist/covid-19-excess-deaths-tracker) and the [Financial Times](https://github.com/Financial-Times/coronavirus-excess-mortality-data) are also publicly releasing their data on all-cause mortality.
268
269 ## License and Attribution
270
271 This data is licensed under the same terms as our Coronavirus Data in the United States data. In general, we are making this data publicly available for broad, noncommercial public use including by medical and public health researchers, policymakers, analysts and local news media.
272
273 If you use this data, you must attribute it to “The New York Times” in any publication. If you would like a more expanded description of the data, you could say “Data from The New York Times, based on reports from national and municipal health agencies.”
274
275 If you use it in an online presentation, we would appreciate it if you would link to our graphic tracking  these deaths [https://www.nytimes.com/interactive/2020/04/21/world/coronavirus-missing-deaths.html](https://www.nytimes.com/interactive/2020/04/21/world/coronavirus-missing-deaths.html).
276
277 If you use this data, please let us know at covid-data@nytimes.com.
278
279 See our [LICENSE](LICENSE) for the full terms of use for this data.
280
281 ## Contact Us
282
283 If you have questions about the data or licensing conditions, please contact us at:
284
285 covid-data@nytimes.com
286
287
288 ## Contributors
289
290 Allison McCann and Jin Wu have been leading our data collection efforts. 
291
292 Josh Katz contributed reporting from New York, Elian Peltier from Paris, Muktita Suhartono from Bangkok, Carlotta Gall from Istanbul, Anatoly Kurmanaev from Caracas, Venezuela, Monika Pronczuk from Brussels, José María León Cabrera from Quito, Ecuador, Irit Pazner from Jerusalem, Mirelis Morales from Lima and Manuela Andreoni from Rio de Janeiro.
293
294 Thank you to Stéphane Helleringer, Johns Hopkins University; Tim Riffe, Max Planck Institute for Demographic Research; Lasse Skafte Vestergaard, EuroMOMO; Vladimir Shkolnikov, Max Planck Institute for Demographic Research; Jenny Garcia, Institut National d'Études Démographiques; Tom Moultrie, University of Cape Town; Isaac Sasson, Tel Aviv University; Patrick Gerland, United Nations; S V Subramanian, Harvard University; Paulo Lotufo, University of São Paulo; and Marcelo Oliveira.