Подготовка паспорта и самого набора данных

Паспорт набора данных - визитная карточка набора данных, содержащая исчерпывающую информацию о наборе данных, необходимую для разработчиков. Паспорт каждого набора данных ТОФК должен включать детальные сведения о происхождении и свойствах набора данных (т.н. метаданные).

Сам набор данных необходимо предварительно перевести либо в csv- (для простых линейных таблиц), либо в xml-формат (для более сложных иерархических таблиц). Перевод линейных таблиц в csv-формат может быть организован стандартными средствами Microsoft Excel и не потребует значительных усилий. Если данные публикуются в xml-формате, необходимо также опубликовать и схему этих данных в xsd-формате. Если исходные данные находятся в форматах PDF или это скан-копии документов, рекомендуется первоначально перевести их в машиночитаемый вид (распознать их с помощью специального программного обеспечения). Наборы, которые превышают по объему 10 Мб, лучше публиковать в сжатом формате ZIP (в заархивированном виде).