Adding note on our methodology change to include probable cases.
authorAlbert Sun <Albert.Sun@nytimes.com>
Fri, 8 May 2020 02:46:01 +0000 (22:46 -0400)
committerAlbert Sun <Albert.Sun@nytimes.com>
Fri, 8 May 2020 02:46:01 +0000 (22:46 -0400)
PROBABLE-CASES-NOTE.md [new file with mode: 0644]
README.md

diff --git a/PROBABLE-CASES-NOTE.md b/PROBABLE-CASES-NOTE.md
new file mode 100644 (file)
index 0000000..10baa6a
--- /dev/null
@@ -0,0 +1,26 @@
+# Methodology Change: Including “Probable” Cases
+May 7, 2020
+
+At the beginning of the Covid-19 epidemic in the United States, most health departments and the Centers for Disease Control only considered a case to be “confirmed” as Covid-19 with a positive confirmatory laboratory test result for SARS-CoV-2 RNA. Recently, however, more and more states and localities have started to include “probable” cases and/or deaths in their counts — in some places reporting only a combined “confirmed” and “probable” total.
+
+Because of these developments, we have changed our [Covid-19 dataset](https://github.com/nytimes/covid-19-data) to start including “probable” Covid-19 cases and deaths when they are available. It is no longer possible to report a comprehensive “confirmed-only” dataset.
+
+This change could cause discontinuities in the data when a locality begins to report “probable” cases and deaths. We are working to acquire the historical data from those places if and when they make it available to continually improve the quality of the dataset.
+
+### Definition of probable
+
+On April 5, the Council of State and Territorial Epidemiologists issued a [recommendation](https://int.nyt.com/data/documenthelper/6908-cste-interim-20-id-01-covid-19/85d47e89b637cd643d50/optimized/full.pdf) that states include both confirmed cases, based on laboratory testing, and probable cases, based on specific criteria for symptoms and exposure. The C.D.C. adopted these definitions and began reporting probable cases on April 14 when New York City [announced](https://www.nytimes.com/2020/04/14/nyregion/new-york-coronavirus-deaths.html) an additional 3,700 deaths presumed to have been caused by Covid-19.
+
+The new criteria define a “probable” Covid-19 case or death based on a combination of evidence from clinical, epidemiologic or serological testing, or from vital records, but without a confirmatory laboratory RNA test.
+
+### Where we see changes
+
+Many states have already quietly changed the numbers they release to include probable cases and deaths. In these cases, and therefore our nationwide total, our numbers already include probable cases and deaths. This is the case for at least Arizona, Colorado, Connecticut, Delaware, Ohio, Virginia, Pennsylvania and Hawaii. 
+
+In others, where states have released confirmed and probable numbers separately, this methodology change will mean our data will be revised to show a higher number of cases and deaths on past dates. This is the case for Guam, Idaho, Indiana, Kansas, Maryland, Nevada, New York, Puerto Rico, Washington, Wyoming and one county in Texas.
+
+The probable cases we’ve added for New York are the additional probable deaths announced by the New York City Health Department, adding these cases to our totals based on date of death.
+
+### What will continue to change
+
+We intend to continue revising our dataset based on the best data we have available. In some cases we may be able to separate out or add additional probable cases earlier in the epidemic. We are also tracking the revisions that state and local health agencies are making to their historical data.
index 3a29293..515bc8d 100644 (file)
--- a/README.md
+++ b/README.md
@@ -1,8 +1,8 @@
 # Coronavirus (Covid-19) Data in the United States
 
-**NEW:** Starting with data for May 6th, this data reports the total combined number of confirmed and probable Covid-19 cases and deaths where available. Many states and localities have started to report this data using criteria that were developed by states and the federal government.
+**NEW:** The data in the counties.csv, states.csv and us.csv now include both confirmed and probable Covid-19 cases and deaths. Because of changes in how states and local health departments are reporting their data, it is no longer possible to report a comprehensive “confirmed-only” dataset. Please see [our note for a full explanation](PROBABLE-CASES-NOTE.md) of the differences and how probable cases are defined.
 
-This will cause a spike in the cases and deaths data for some areas while we work to revise our historical data with those probable cases and deaths.
+---
 
 [ [U.S. Data](us.csv) ([Raw CSV](https://raw.githubusercontent.com/nytimes/covid-19-data/master/us.csv)) | [U.S. State-Level Data](us-states.csv) ([Raw CSV](https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-states.csv)) | [U.S. County-Level Data](us-counties.csv) ([Raw CSV](https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv)) ]
 
@@ -56,6 +56,7 @@ date,county,state,fips,cases,deaths
 
 In some cases, the geographies where cases are reported do not map to standard county boundaries. See the list of [geographic exceptions](#geographic-exceptions) for more detail on these.
 
+
 ## Methodology and Definitions
 
 The data is the product of dozens of journalists working across several time zones to monitor news conferences, analyze data releases and seek clarification from public officials on how they categorize cases.